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数据 库 开 发 工程 师 是 从 事 数据 库 管理 系统 (DBMS ) 和 数据 库 应 用 软件 设计 研发 的 
相关 工作 人 员 的 统称 ， 属 于 软件 研发 工程 师 ， 但 又 有 一 部 分 运 维 工作 。 软 件 研发 工程 师 
主要 从 事 软 件 研 发 的 工作 ， 但 同时 也 要 参与 数据 库 生 产 环境 的 问题 优化 和 解决 。 数 据 库 
开发 工程 师 与 传统 的 数据 库 管 理 员 (DBA) 是 不 同 的 职位 。 传 统 的 DBA 主要 属于 运 维 
职位 ， 而 数据 库 开 发 工程 师 则 属于 软件 研发 职位 。 但 二 者 也 有 部 分 工作 内 容重 合 ， 比 如 
都 要 跟 进 数据 库 生 产 环境 出 现 的 故障 问题 ， 其 中 ，DBA 主要 负责 故障 处 理 ， 而 数据 库 开 
发 工程 师 主要 跟 进 系统 模块 出 现 的 bug 或 性 能 问题 。 根 据 研发 的 内 容 不 同 ， 数 据 库 开 发 
工程 师 可 以 分 为 两 大 发 展 方向 : 数据 库 内 核 研发 和 数据 库 应 用 软件 研发 。 其 中 ， 数 据 库 
应 用 软件 研发 主要 负责 设计 和 研发 数据 库 管 理 系统 衍生 的 各 种 应 用 软件 产品 ， 重 点 关注 
的 是 数据 库 外 部 应 用 软件 产品 架构 的 设计 和 实现 ,比如 分 布 式 数据 库 、 数据 库 中 间 件 等 。 

在 计算 机 科学 与 技术 、 软 件 工程 等 本 科 专业 的 课程 体系 中 ， 程 序 设计 类 课程 和 数据 
库 类 课程 都 是 非常 重要 的 课程 群 。 程 序 设计 类 课程 主要 包括 程序 设计 基础 、 面 向 对 象 程 
序 设 计 等 课程 ， 而 数据 库 类 课程 主要 包括 数据 库 系统 等 课程 ， 而 在 专业 综合 实践 和 毕业 
设计 等 教学 环节 中 ， 基 于 数据 库 系 统 的 软件 开发 是 学 生 需 要 具备 的 非常 重要 的 核心 技能 
之 一 。 这 也 是 编者 编写 本 教材 的 初 囊 。 通 过 本 教材 和 相关 课程 的 学 习 ， 读 者 将 理解 程序 
和 数据 之 间 的 生产 者 /消费 者 关系 ， 为 相关 的 实践 教学 环节 和 就 业 葛 定 坚 实 的 技术 基础 。 


本 书 特色 


本 书 不 仅 结合 实例 详细 讲解 了 Java 数据 库 开 发 的 基础 知识 ， 同 时 还 就 Java 数据 库 
开发 的 主要 应 用 进行 了 实例 讲解 。 全 书 共 8 章 ， 详 细 介 绍 了 JDBC 开发 的 初级 和 高 级 技 
Ж, 使 用 Hibernate 进行 CRUD 操作 以 及 实体 和 联系 的 映射 方法 ， 并 对 NoSQL 数据 库 和 
大 数据 进行 了 相关 介绍 。 

全 书 知识 点 与 应 用 实例 相 结 合 ， 介 绍 了 数据 库 开 发 技术 的 原理 、 技 术 及 应 用 ， 注 如 
理论 联系 实际 。 本 书 内 容 从 简单 到 复杂 ， 阶 梯 式 递 进 ， 读 者 可 以 根据 需要 选读 。 


读者 对 象 
本 书 可 作为 高 等 院 校 软件 工程 、 计 算 机 科学 与 技术 等 相关 本 科 生 专业 教材 ， 也 可 作 


为 相关 学 科 的 研究 生 参 考 资料 ， 还 可 作为 学 习 Java 开发 、 数 据 库 开发 、Java EE 开发 的 
职业 技能 培训 教材 。 
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数据 库 开 发 技术 概述 


1.1 应 用 程序 与 数据 库 的 关系 


数据 库 系 统 (DataBase System，DBS ) 的 结构 如 图 1.1 所 示 , 其 中 , 数据 库 (DataBase， 
DB) 提供 数据 的 存储 功能 。 数 据 库 管理 系统 (DataBase Management System, DBMS) 
提供 数组 的 组 织 、 存 取 、 管 理 和 维护 等 基础 功能 。 数 据 库 应 用 系统 根据 应 用 需求 使 用 数 
据 库 ， 数 据 库 管 理 员 (DataBase Administrator, DBA) 负责 全 面 管理 数据 库 系统 。 图 1.2 
是 引入 了 数据 库 之 后 的 计算 机 系统 的 层次 结构 。 


应 用 开发 


11 数据库 系统 的 结构 12 引入 数据 库 后 计算 机 系统 的 层次 结构 


从 图 1.1 中 可 以 看 出 ， 在 数据 库 系统 中 ， 除 了 数据 库 之 外 ， 其 余 均 为 软件 ， 尤 其 是 
用 户 直接 使 用 的 各 类 应 用 系统 。 从 图 1.2 中 也 可 以 看 出 ， 普 通用 户 直接 与 各 类 数据 库 应 
用 系统 进行 交互 ， 完 成 各 类 业务 活动 。 因 此 ， 在 计算 机 系统 中 普遍 存在 的 一 个 关系 就 是 
应 用 程序 与 数据 库 二 者 之 间 的 关系 。 


ө-- 144 应 用 程序 与 数据 库 的 关系 概述 -、 


tet 2 


实际 上 ， 在 数据 库 的 不 同 历史 发 展 阶 


段 中 ， 应 用 程序 与 数据 之 间 的 关系 也 在 发 “| REF1 | | ЖЖ: | 
生变 化 。 在 人 工 管理 阶段 (20 世纪 50 年 代 — и 
中 期 以 前 )， 应 用 程序 与 数据 之 间 是 一 一 对 | _ 应 用 程序 2 数据 集 2 
应 的 ， 其 关系 如 图 13 所 示 。 人工 管 理 数据 : : 
主要 具有 如 下 特点 。 应 用 程序 数据 集 n 
и. Ачы, 7 图 13 人工 管 理 阶段 应 用 程序 与 数据 之 
о 应 用 程序 管理 数据 ; 间 的 一 一 对 应 关系 
О 数据 不 共享 ; 


О 数据 不 具有 独立 性 。 
在 文件 系统 阶段 (20 世纪 50 年 代 后 期 到 60 年 代 中 期 )， 应 用 程序 与 数据 之 间 的 对 
应 关系 如 图 1.4 所 示 。 用 文件 系统 管理 数据 具有 如 下 特点 。 


应 用 程序 1 


应 用 程序 2 


应 用 程序 n 


数据 集 1 


数据 集 2 


数据 集 n 


了 图 14 ,文件 系统 阶段 应 用 程序 与 数据 之 间 的 对 应 关系 


口 数据 可 以 长 期 保存 ; 
口 ” 由 文件 系统 管理 数据 。 
文件 系统 存在 的 缺点 如 下 。 


О О 数据 共享 性 差 、 宛 余 度 大 ; 


О 数据 独立 性 差 。 


从 20 世纪 60 年 代 后 期 以 来 ， 主 要 采用 数据 库 系 统 来 管理 数据 。 该 阶段 应 用 程序 与 
数据 之 间 的 对 应 关系 如 图 1.5 所 示 。 


ü 


g 图 15 


应 用 程序 1 
| 
应 用 程序 2 数据 库 
管理 系统 
应 用 程序 n ГА 


数据 库 


数据 库 系统 阶段 应 用 程序 与 数据 之 间 的 对 应 关系 


与 人 工 管理 和 文件 系统 相 比 ， 数 据 库 系统 的 特点 主要 有 以 下 几 个 方面 。 

О ”数据 结构 化 : 数据 库 系 统 实现 整体 数据 的 结构 化 , 这 是 数据 库 的 主要 特征 之 一 ， 
也 是 数据 库 系 统 与 文件 系统 的 本 质 区 别 。 

О ”数据 的 共享 性 高 、 宛 余 度 低 且 易 扩充 。 


о 数据 独立 性 高 。 


О 数据 由 数据 库 管理 系统 统一 管理 和 控制 。 

数据 库 是 长 期 存储 在 计算 机 内 有 组 织 、 大 量 、 共 享 的 数据 集合 。 它 可 以 供 各 种 用 户 
共享 ， 具 有 最 小 宛 余 度 和 较 高 的 数据 独立 性 。 数 据 库 管理 系统 在 数据 库 建 立 、 运 行 和 维 
护 时 对 数据 库 进 行 统一 控制 ， 以 保证 数据 的 完整 性 和 安全 性 ， 并 在 多 用 户 同时 使 用 数据 
库 时 进行 并 发 控制 ， 在 发 生 故障 后 对 数据 库 进 行 恢复 。 

数据 库 系 统 的 出 现 使 软件 系统 从 以 加 工 数据 的 程序 为 中 心 转向 围绕 共享 的 数据 库 为 
中 心 的 新 阶段 。 这 样 既 便 于 数据 的 集中 管理 ， 又 能 简化 应 用 程序 的 研制 和 维护 ， 提 高 了 数 
据 的 利用 率 和 相 容 性 ， 提 高 了 决策 的 可 靠 性 。 目 前 ， 数 据 库 已 经 成 为 现代 软件 系统 的 重要 
组 成 部 分 。 具 有 数 百 GB、 数 百 TB、 甚 至 数 百 PB (1PB=2”B)、 百 EB (1EB=2%B) 的 数 
据 库 已 经 普遍 存在 于 科学 技术 、 工 业 、 农 业 、 商 业 、 服 务 业 和 政府 部 门 的 软件 系统 中 。 
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e- 142 数据 库 系统 的 结构 -， 

考察 数据 库 系统 的 结构 可 以 有 多 种 不 同 的 层次 或 不 同 的 角度 。 从 数据 库 应 用 开发 人 
员 角 度 看 , 数据库 系 统 通常 采用 三 级 模式 结构 ,这 是 数据 库 系 统 内 部 的 系统 结构 。 从 数据 
库 最 终 用 户 角 度 看 ， 数 据 库 系统 的 结构 分 为 单 用 户 结构 、 主 从 式 结构 、 分 布 式 结构 、 客 户 
机 /服务 器 、 浏 览 器 /应 用 服务 器 /数据 库 服 务 器 多 层 结构 等 。 这 是 数据 库 系 统 外 部 的 体系 结 
构 。 目 前 ， 许 多 主流 的 数据 库 系统 采用 了 客户 机 /服务 器 (Client/Server) 体系 结构 。 

数据 库 系统 的 三 级 模式 结构 是 指数 据 库 系统 是 由 外 模式 、 模 式 和 内 模式 三 级 构成 ， 
如 图 1.6 所 示 。 数 据 库 系统 的 三 级 模式 是 数据 的 三 个 抽象 级 别 ， 它 把 数据 的 具体 组 织 留 
给 数据 库 管 理 系统 管理 ， 使 用 户 能 逻辑 地 、 抽 象 地 处 理 数据 ， 而 不 必 关 心 数据 在 计算 机 
中 的 具体 表示 方式 与 存储 方式 .为 了 能 够 在 系统 内 部 实现 这 三 个 抽象 层次 的 联系 和 转换 ， 
数据 库 管 理 系统 在 这 三 级 模式 之 间 提 供 了 两 层 映 像 : 外 模式 /模式 映像 和 模式 /内 模式 映 
像 。 这 两 层 映像 保证 了 数据 库 系统 中 的 数据 能 够 具有 较 高 的 逻辑 独立 性 和 物理 独立 性 。 
其 中 ， 外 模式 /模式 映像 主要 解决 的 就 是 应 用 程序 与 数据 之 间 的 独立 性 问题 。 

АРАТ 用 户 A2 用 户 B1 用 户 B2 


宿主 语言 宿主 语言 宿主 语言 宿主 语言 
+DML +DML +DML +DML 


外 模式 | 外 部 视图 A 外 部 视图 B 视图 层 
外 模式 模式 (人 
映像 
模式 逻辑 层 
а 人 
| 


数据 库 系统 的 三 级 模式 结构 


模式 描述 的 是 数据 的 全 局 逻辑 结构 ， 外 模式 描述 的 是 数据 的 局 部 逻辑 结构 。 对 应 于 
同一 个 模式 可 以 有 任意 多 个 外 模式 。 对 于 每 一 个 外 模式 ， 数 据 库 系统 都 有 一 个 外 模式 / 
模式 映像 ， 它 定义 了 该 外 模式 与 模式 之 间 的 对 应 关系 。 这 些 映 像 定 义 通常 包含 在 各 自 外 
模式 的 描述 中 。 当 模式 改变 时 《〈 例 如， 增加 新 的 关系 、 新 的 属性 、 改 变 属性 的 数据 类 型 
等 )， 由 数据 库 管 理 员 对 各 个 外 模式 /模式 映像 做 出 相应 改变 ， 可 以 使 外 模式 保持 不 变 。 


应 用 程序 是 依据 数据 的 外 模式 编写 的 ， 从 而 应 用 程序 不 必修 改 ， 保 证 了 数据 与 程序 的 加 
辑 独立 性 ， 简 称 数据 的 地 辑 独 立 性 。 

特定 的 应 用 程序 是 在 外 模式 描述 的 数据 结构 上 编制 的 ， 它 依赖 于 特定 的 外 模式 ， 与 
数据 库 的 模式 和 存储 结构 独立 。 不 同 的 应 用 程序 有 时 可 以 共用 同一 个 外 模式 。 数据库 的 
二 级 映像 保证 了 数据 库 外 模式 的 稳定 性 ， 从 而 从 底层 保证 了 应 用 程序 的 稳定 性 ， 除 非 应 
用 程序 的 需求 本 身 发 生 了 变化 ， 否 则 应 用 程序 一 般 不 需要 修改 。 

数据 与 应 用 程序 之 间 的 独立 性 使 得 数据 的 定义 和 描述 可 以 从 应 用 程序 中 分 离 出 去 。 
另外 ， 由 于 数据 的 存 取 由 数据 库 管理 系统 来 ње | [=] 
管理 ， 从 而 简化 了 应 用 程序 的 开发 工作 ， 大 一 一 
大 减少 了 应 用 程序 维护 和 修改 的 成 本 。 КА 

数据 库 系统 一 般 由 数据 库 、 数 据 库 管 理 
系统 及 其 应 用 开发 工具 )、 应 用 程序 和 数 DBA, 
据 库 管理 员 构 成 。 各 种 人 员 的 数据 视图 如 图 5%, 
1.7 所 示 。 

其 中 ， 数 据 库 系统 的 软件 主要 包括 以 下 
几 个 方面 。 数据 抽象 级 别 软件 系统 层次 

с) 数据 库 管理 系统 。 数 据 库 管理 系 | [了 图 17 ,各 种 人 员 的 数据 视图 
统 是 为 数据 库 的 建立 、 使 用 和 维护 配置 的 系 
统 软件 。 

(2) 支持 数据 库 管理 系统 运行 的 操作 系统 。 

(3) 具有 与 数据 库 接口 的 高 级 语言 及 其 编译 系统 ， 便 于 开发 应 用 程序 。 

(4) 以 数据 库 管理 系统 为 核心 的 应 用 开发 工具 。 应 用 开发 工具 是 系统 为 应 用 开发 
人 员 和 最 终 用 户 提供 的 高 效 、 多 功能 的 应 用 生成 器 、 第 4 代 语言 等 各 种 软件 工具 。 它 们 
为 数据 库 系统 的 开发 和 应 用 提供 了 良好 的 环境 。 

(5) 为 特定 应 用 环境 开发 的 数据 库 应 用 系统 。 

本 书 主要 讨论 上 述 第 3 一 5 部 分 中 涉及 的 相关 数据 库 应 用 系统 开发 技术 。 


12 多 层 软件 染 构 


对 程序 员 来 说 很 常见 的 一 种 情况 是 在 没有 合理 的 软件 架构 时 就 开始 编程 。 在 没有 一 
个 清晰 的 和 定义 好 的 架构 的 情况 下 ， 大 多 数 开发 者 和 架构 师 通 常会 使 用 标准 式 的 传统 多 
层 架 构 模式 (也 被 称 为 多 层 架 构 )。 在 多 层 架构 中 , 通常 将 源码 模块 分 割 为 几 个 不 同 的 层 。 

应 用 程序 缺乏 合理 的 架构 一 般 会 导致 程序 的 过 度 耦 合 、 容 易 被 破坏 、 难 以 应 对 变化 
等 情况 。 这 样 的 结果 是 ， 如 果 没 有 充分 理解 程序 系统 里 的 每 个 组 件 和 模块 ， 就 很 难 定义 
这 个 程序 的 结构 特征 。 


-- 121 多 层 软 件 架构 简介 -， 


多 层 架 构 是 一 种 很 常见 的 架构 模式 ， 也 称 为 Y 层 架构 。 这 种 架构 是 大 多 数 企 业 级 应 


应 用 系统 
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用 系统 的 实际 标准 ， 因 此 很 多 的 架构 师 、 设 计 师 以 及 程序 员 都 很 熟悉 多 层 架 构 。 许 多 传 
# IT 公司 的 组 织 架构 和 分 层 模式 十 分 相似 。 因此 , 多 层 架 构 很 自然 地 成 为 大 多 数 应 用 程 
序 的 架构 模式 。 

多 层 架 构 模 式 的 组 件 被 分 成 几 个 平行 的 层次 ， 每 一 层 都 代表 了 应 用 程序 的 一 个 功能 
〈 展 示 罗 辑 或 者 业务 逻辑 )。 尽 管 多 层 架 构 没 有 规定 自身 要 分 成 几 层 ， 大 多 数 多 层 架 构 其 
结构 都 包括 以 下 4 个 层次 : 展示 层 〈 也 称 为 表现 层 ，Presentation Layer)、 业 务 层 〈 也 称 
为 业务 逻辑 层 ，Business Layer)、 持 久 层 〈 也 称 为 持久 化 层 ，Persistence Layer) 和 数据 
库 层 (Database Layer)， 如 图 1.8 所 示 。 有 时 
候 , 业务 层 和 持久 层 会 合并 成 单独 的 业务 层 ， | 展示 层 CTO | 组 件 | жт) 
尤其 是 持久 层 的 逻辑 绑 定 在 业务 层 的 组 件 当 
中 。 因 此 ， 有 一 些小 的 应 用 程序 可 能 只 有 3 | 业务 层 【 组 件 ] | 组 件 | | 组 件 ] 
层 ， 而 一 些 有 着 更 复杂 业务 的 应 用 程序 可 能 
会 有 5 层 或 者 更 多 的 分 层 。 持久 层 [те ] { 组 件 ] | 组 件 ] 

多 层 架 构 中 的 每 一 层 都 有 着 特定 的 角色 L | 
和 职能 。 例 如 ， 展 示 层 负责 处 理 所 有 的 界面 у ч 
展示 以 及 交 巨 逻 得 ， 业务 层 负 责 处 理 请 求 时 “| xfR @ @ @ ө 
应 的 业务 。 每 一 层 是 具体 工作 的 高 度 抽 象 ， 
都 是 为 了 实现 某 种 特定 的 业务 请 求 。 例 如 ， 
展示 层 不 需要 关心 如 何 得 到 用 户 查询 的 数据 ， 只 需 在 屏幕 上 以 特定 的 格式 来 展示 这 些 数 
据 。 业 务 层 不 关心 数据 的 展现 形式 ， 也 不 关心 数据 来 自 何 处 ， 只 负责 从 持久 层 得 到 数据 ， 
执行 与 数据 有 关 的 相应 业务 逻辑 ， 然 后 把 这 些 信 息 传递 给 展示 层 。 

多 层 架 构 的 一 个 突出 特点 是 组 件 之 间 的 关注 点 分 离 。 一 个 层 中 的 组 件 只 会 处 理 本 层 
的 逻辑 。 例 如 ， 展 示 层 的 组 件 只 会 处 理 展示 逻辑 ， 而 业务 层 中 的 组 件 则 只 会 处 理 业务 轴 
辑 。 利 用 组 件 分 离 的 技术 ， 能 够 更 容易 构造 有 效 的 角色 和 强 有 力 的 软件 模型 。 这 样 极 大 
地 降低 了 应 用 程序 的 开发 、 测 试 、 管 理 和 维护 等 工作 的 成 本 。 


-22 多 层 软件 架构 的 特点 -， 

注意 图 1.9 中 每 一 层 都 是 封闭 的 。 WR 
这 是 多 层 架 构 中 非常 重要 的 特点 。 这 意 | 展示 层 
味 着 用 户 的 请 求 必 须 一 层 一 层 地 传递 。 
例如 ， 从 展示 层 传递 来 的 请 求 首先 会 伟 
递 到 业务 层 ， 然 后 传递 到 持久 层 ， 最 后 


1 
$ 
才 传递 到 数据 层 。 | { 
{ 


18 常见 的 多 层 软 件 架构 


(组 件 ) ( 组件] (a) | Bü 


(aw) (a) (组件) | 封闭 


(at) [ 组件] ( 组件) | 封闭 


ДАХ ДЕ 


19 _ 多 层 架构 中 每 一 层 的 封闭 性 


那么 为 什么 不 允许 展示 层 直 接 访 
问 数据 层 呢 ? 如 果 只 是 获得 以 及 读 取 
数据 ， 展 示 层 直接 访问 数据 层 ， 比 穿 过 
很 多 层 一 步 步 得 到 数据 快 得 多 。 之 所 以 
这 么 做 ， 涉 及 一 个 概念 : 层 隔 离 。 层 隔 


离 是 指 架 构 中 的 某 一 层 的 改变 不 会 影响 到 其 他 层 , 这 些 变化 的 影响 范围 仅 限 于 当前 层次 。 
如 果 展 示 层 能 够 直接 访问 持久 层 ， 展 示 层 就 会 与 持久 层 紧密 相关 。 如 果 持久 层 中 的 结构 
变化 了 ， 展 示 层 就 会 受到 影响 ， 很 可 能 需要 修改 程序 。 这 样 会 让 应 用 变 得 紧 耦 合 ， 组件 
之 间 互 相依 赖 ， 这 种 架构 的 致命 缺点 是 难以 维护 。 从 另外 一 个 方面 来 说 ， 分 层 隔离 使 
得 层 与 层 之 间 都 是 相互 独立 的 ， 架 构 中 的 每 一 层 的 相互 了 解 都 很 少 。 为 了 说 明 这 个 概 
念 的 强大 之 处 ， 可 以 想象 一 个 超级 重 构 : 把 展示 层 从 JSP 换 成 JSF。 假 设 展示 层 和 业务 
层 之 间 的 联系 保持 一 致 ， 业 务 层 不 会 受到 重 构 的 影响 ， 它 和 展示 层 所 使 用 的 界面 技术 完 
全 独立 。 

然而 封闭 的 架构 层次 也 有 不 便 之 处 ， 有 时 候 也 需要 开放 某 一 层 。 例 如 ， 如 图 1.10 所 
示 ， 新 建 了 一 个 服务 层 。 新 的 服务 层 是 处 于 业务 逻辑 层 之 下 的 ， 表 现 层 不 能 直接 访问 这 
个 服务 层 中 的 组 件 。 如 果 服 务 层 是 封闭 的 ， 业 务 逻 辑 层 需要 通过 服务 层 才 能 访问 到 持久 
层 ， 这 样 使 操作 复杂 化 ， 不 合理 。 应 将 服务 层 设置 为 开放 的 ， 所 有 请 求 可 以 绕 过 这 一 层 ， 
直接 访问 持久 层 ， 这 样 就 更 加 合理 、 灵 活 了 。 

请 求 


展示 层 [组件 ] Саше) Gu) [ий 


业务 层 { [组件 ] (组 件 ) Gur) у [ий 


服务 层 | | 是 [组件 ] Gam) | 封闭 


持久 层 | (ш) (组 件 ) (组 件 ) | 封闭 


m~ 0000 Hm 


ГУ МО ,增加 了 开放 的 服务 层 的 多 层 软 件 架构 


开放 和 封闭 层 的 概念 确定 了 架构 层 和 请 求 流 之 间 的 关系 ， 并 且 给 设计 师 和 开发 人 员 
提供 了 必要 的 信息 ， 以 理解 架构 里 各 种 层 之 间 的 访问 限制 。 如 果 随 意 地 开放 或 者 封闭 架 
构 里 的 层 ， 整 个 项 目 可 能 都 是 紧 耦 合 、 一 团 糟 的 ， 以 后 也 难以 测试 、 维 护 和 部 署 。 

多 层 架构 是 一 个 很 可 靠 的 架构 模式 ， 适 合 大 多 数 的 应 用 程序 开发 。 从 架构 的 角度 考 
虑 ， 选 择 这 个 模式 还 要 考虑 很 多 的 因素 ， 例 如 ， 整 体 灵活 性 、 易 于 部 署 、 可 测试 性 、 系 
统 总 体 性 能 、 可 伸缩 性 、 易 开发 性 等 方面 。 


13 数据 访问 层 


数据 访问 层 又 称 为 DAL (Data Access Layer)， 有 时 候 也 称 持 久 层 或 持久 化 层 
(Persistence Layer)， 主 要 负责 数据 的 访问 ， 可 以 访问 数据 库 系 统 、 二 进 制 文 件 、 文 本 
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文档 或 是 XML 文档 。 简 单 来 说 ， 就 是 实现 е е ° 
对 数据 表 的 Select. Insert. Update、Delete g> 

等 操作 ， 也 就 是 常 说 的 增删 改 查 操作 ， 英 文 
缩写 为 CRUD〔 即 增加 (Create)、 读 取 查 询 


(Retrieve)、 更 新 (Update ) 和 删除 (Delete))。 18 
如 果 要 加 入 ОКМ (Object Relation Mapping, N 
m | 

对 象 关系 映射 ， 请 参见 1.5 节 及 第 5 章 ) 的 — 
元 素 ， 那 么 就 会 包括 对 象 和 数据 表 之 间 的 映 асык 
射 ， 以 及 对 象 实体 的 持久 化 。 数 据 访问 层 在 вними арми) 
多 层 架 构 中 的 地 位 如 图 1.11 所 示 。 

狭义 的 理解 ,“ 持 久 化 ” 仅 指 把 领域 对 数据 库 


象 (Domain Object， 即 业务 对 象 (Business 
Object)， 属 于 业务 逻辑 层 ) 永久 保存 到 数据 
库 中 ; 广义 的 理解 ,“ 持 久 化 ”包括 和 数据 
库 相 关 的 各 种 操作 ， 具 体 如 下 。 
о RË: 把 业务 对 象 永久 保存 到 数据 库 。 
а 更 新 : 更 新 数据 库 中 业务 对 象 的 状态 。 
О Ж: 从 数据 库 中 删除 一 个 业务 对 象 。 
О 加 载 : 根据 特定 的 OID (Object IDentifier， 对 象 标识 符 ， 具 有 唯一 性 )， 把 一 个 
业务 对 象 从 数据 库 加 载 到 内 存 。 
О о ”查询 : 根据 特定 的 查询 条 件 ， 把 符合 查询 条 件 的 一 个 或 多 个 业务 对 象 从 数据 库 
加 载 在 内 存 中 。 
持久 化 技术 封装 了 数据 访问 细节 ， 为 大 部 分 业务 逻辑 提供 了 面向 对 象 的 API， 其 优 
点 主要 如 下 。 
О 通过 持久 化 技术 可 以 减少 访问 数据 库 的 数据 次 数 ， 增 加 应 用 程序 执行 速度 ; 
О ”代码 重用 性 高 ， 能 够 完成 大 部 分 数据 库 操作 ; 
О 松散 辜 合 ， 使 持久 化 不 依赖 于 底层 数据 库 和 上 层 业务 逻辑 实现 ， 更 换 数 据 库 时 
只 需 修改 配置 文件 而 不 用 修改 代码 。 
在 数据 访问 层 〈 即 持久 化 层 ) 中 可 以 使 用 数据 库 访问 接口 直接 访问 数据 库 〈 请 参见 
1.4 节 )， 也 可 以 使 用 某 种 持久 化 框架 来 访问 数据 库 。 目 前 广泛 使 用 的 持久 化 框架 包括 
Hibernate (请 参见 第 5 章 )、MyBatis (原来 的 iBatis 已 更 名 为 MyBatis) 等 。 
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1.4 ”常见 数据 库 访问 接口 


在 数据 访问 层 中 ， 主 要 使 用 的 数据 库 访问 接口 包括 ODBC 数据 库 接口 、OLE DB 数 
据 库 接口 、ADO 数据 库 接口 、ADO.NET 数据 库 接口 、JDBC 数据 库 接口 等 。 


1. ODBC 数据 库 接口 
ODBC 即 开放 式 数 据 库 互 连 (Open Database Connectivity)， 是 一 种 实现 应 用 程序 和 


关系 数据 库 之 间 通 信 的 接口 标准 。1991 年 11 H, Microsoft 宣布 了 ODBC. 1992 年 2 月 ， 
Microsoft 推出 了 ODBC SDK 2.0 版 。 符 合 标准 的 数据 库 就 可 以 通过 SQL 编写 的 命令 对 
数据 库 进 行 操作 ， 但 只 针对 关系 数据 库 。 目 前 所 有 的 关系 数据 库 都 符合 该 标准 (如 SQL 
Server, Oracle, Access 等 )。ODBC 本 质 上 是 一 组 数据 库 访 问 АРІ (应 用 程序 编程 接口 )， 
由 一 组 函数 调用 组 成 ， 核 心 是 SQL 语句 ， 其 结构 如 图 1.12 所 示 。 


ODBC 数 据 库 应 用 程序 
ODBC 驱 动 程序 管理 器 
SQL Server| Oracle FoxPro Sybase DB2 
驱动 程序 | 驱动 程序 | 驱动 程序 | 驱动 程序 | 驱动 程序 


| | | 


SQL “| Огасје FoxPro Sybase DB2 
数据 源 | 数据 源 数据 源 | 数据 源 | 数据 源 


ттт 
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2. OLE DB 数据 库 接口 


OLE DB 即 数据 库 链 接 和 嵌入 对 象 (Object Linking and Embedding Data Base), OLE 
DB 是 Microsoft 推出 的 战略 性 的 、 通 向 不 同 的 数据 源 的 低级 应 用 程序 接口 。OLE DB 不 
仅 包括 Microsoft 资助 的 标准 数据 接口 开放 数据 库 连通 性 CODBC) 的 结构 化 查询 语言 
CSQL) 能 力 ， 还 具有 面向 其 他 非 SQL 数据 类 型 的 通路 。 

OLE DB 是 微软 提出 的 基于 COM 思想 且 面 向 对 象 的 一 种 技术 标准 ， 目 的 是 提供 一 
种 统一 的 数据 访问 接口 访问 各 种 数据 源 ， 这 里 所 说 的 “数据 ”除了 标准 的 关系 型 数据 库 
中 的 数据 之 外 ,还 包括 邮件 数据 、Web 上 的 文本 或 图 形 、 目 录 服 务 (Directory Services), 
以 及 主机 系统 中 的 文件 和 地 理 数据 以 及 自 定义 业务 对 象 等。 

OLE DB 标准 的 核心 内 容 是 提供 一 种 相同 的 访问 接口 ， 使 得 数据 的 使 用 者 应 用 程 
J) 可 以 使 用 同样 的 方法 访问 各 种 数据 ， 而 不 用 考虑 数据 的 具体 存储 地 点 、 格 式 或 类 型 ， 
其 结构 图 如 图 1.13 所 示 。 


OLE DB Providers 


8 a ве 


MS SQL Server Access Database ODBC Provider 其 他 数据 库 
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3. ADO 数据 库 接口 
ADO (ActiveX Data Objects) 是 微软 公司 开发 的 基于 СОМ 的 数据 库 应 用 程序 接 
通过 ADO 连接 数据 库 ， 可 以 灵活 地 操作 数据 库 中 的 数据 。 
1.14 展示 了 应 用 程序 通过 ADO 访问 SQL Server 数据 库 接口 。 
使 用 ADO 的 客户 程序 


OLE DB 提供 程序 


ODBC 


орвсу /ODBCN | 电子 表格 | | 电子 邮件 | | 其 他 非 关 系 型 存储 
数据 库 / “数据库 
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从 图 1.14 可 以 看 出 ,使 用 ADO 访问 SQL Server 数据 库 有 两 种 途径 : 一 种 是 通过 ODBC 
驱动 程序 ， 另 一 种 是 通过 SQL Server 专用 的 OLE DB Provider， 后 者 的 访问 效率 更 高 。 
4. ADO.NET 数据 库 接口 


ASP.NET 使 用 ADO.NET 数据 模型 。 该 模型 从 ADO 发 展 而 来 , 但 不 只 是 对 ADO 的 
改进 ， 而 是 采用 了 一 种 全 新 的 技术 。 主 要 表现 在 以 下 几 个 方面 。 

ADO.NET 不 是 采用 ActiveX 技术 ， 而 是 与 .NET 框架 紧密 结合 的 产物 。 

ADO.NET 包含 对 XML 标准 的 完全 支持 ， 这 对 于 跨 平台 交换 数据 具有 重要 的 意义 。 

ADO.NET 既 能 在 与 数据 源 连接 的 环境 下 工作 ， 又 能 在 断 开 与 数据 源 连接 的 条 件 下 
工作 。 特 别 是 后 者 ， 非 常 适合 于 网 络 应 用 的 需 
要 。 因 为 在 网 络 环 境 下 ， 保 持 与 数据 源 连 接 ， 


不 符合 网 站 的 要 求 ， 不 仅 效率 低 ， 付 出 的 代价 RS 

高 ， 而 且 常 常会 引发 由 于 多 个 用 户 同时 访问 时 
带 来 的 冲突 。 因 此 ADO.NET 系统 集中 主要 精 数据 层 

力 用 于 解决 在 断 开 与 数据 源 连 接 的 条 件 下 数 и 
据 处 理 的 问题 。 


ADONET 提供 了 面向 对 象 的 数据 库 视 。 [数据 提供 器 | | 数据 提供 器 | | 数据 提供 器 
图 ， 并 且 在 ADONET 对 象 中 封装 了 许多 数据 
库 属性 和 关系 。 最 重要 的 是 ，ADONET 通过 == 

数据 存储 区 | | 数据 存储 区 | | 数据 存储 区 
很 多 方式 封装 和 隐藏 了 很 多 数据 库 访 问 的 细 ятак) [SQL Server} ак 
节 。 可 以 完全 不 知道 对 象 在 与 ADONET 对 象 | ' 
图 1. 过 ja 
交互 ,也 不 用 担心 数据 移动 到 另外 一 个 数据 库 。 所 ширен T E 
或 者 从 另 一 个 数据 库 获得 数据 的 细节 问题 。 


四 


ADO.NET 的 架构 如 图 1.15 所 示 。 
5. JDBC 数据 库 接 口 


JDBC 代表 Java 与 数据 库 的 连接 。 从 根本 上 说 ，JDBC 是 一 种 规范 ， 提 供 了 一 套 完 
整 的 、 可 移植 的 访问 底层 数据 库 的 接口 。 

JDBC 库 包 含 的 API 为 与 数据 库 的 使 用 相关 联 的 任务 ， 例 如 

(1) 连接 到 数据 库 ; 

(2) 创建 SQL 语句 ; 

G) 执行 SQL 语句 ， 并 查询 数据 库 ; 

(4) 查看 和 修改 结果 记录 。 

可 以 用 Java 来 编写 不 同类 型 的 可 执行 文件 ， 例 如 : 

(1) Java 应 用 程序 (Application ); 

(2) Java Applets; 

(3) Java Servlets; 

(4) Java Server Pages (JSP); 

(5) Enterprise JavaBeans (EJBs)。 

所 有 这 些 不 同 的 可 执行 文件 都 可 以 使 用 JDBC 驱动 程序 来 访问 数据 库 。JDBC 提供 
了 与 ODBC 相同 的 功能 ， 人 允许 Java 程序 包含 与 数据 库 无 关 的 代码 。JDBC 开发 模型 如 图 


1.16 所 示 。 
Java Application 
JDBCAPI 


то Driver 


JDBC sss Driver napas 
ka 
Фо 
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JDBC 提供 了 如 下 多 种 不 同 的 连接 方式 。 

а JDBC-ODBC 连接 桥 : 这 种 方式 是 以 ODBC 为 基础 的 。 由 于 Java 应 用 程序 和 
ODBC 之 间 的 通信 比较 麻烦 , 但 ODBC 作为 一 种 数据 库 访问 的 标准 应 用 是 很 广 
泛 的 ,因此 JDBC 通过 映射 ODBC 的 功能 调用 就 保证 了 原来 使 用 ODBC 的 数据 
库 也 可 以 很 方便 地 进行 访问 。 

О 本 地 API 了 驱动 : 即 把 JDBC 调用 转换 为 对 数据 库 接口 的 客户 端 二 进 制 代码 库 的 
调用 。 但 是 这 个 接口 库 依赖 于 生产 商 ， 因 为 这 里 调用 的 不 是 数据 库 厂商 提供 的 
JDBC 的 接口 实现 。 
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О # Java 本 地 协议 : 即 把 JDBC 调用 映射 为 DBMS 的 网 络 监听 协议 的 功能 调用 ， 监 
听 程 序 监 听 到 请 求 后 执行 相关 的 数据 库 操 作 ， 监 听 程 序 是 由 数据 库 厂商 提供 的 。 
JDBC 不 同 的 连接 方式 如 图 1.17 所 示 。 


Java 数 据 库 应 用 程序 
(JDBC API) 
JDBC 驱 动 程序 网 络 协议 
= 驱动 程序 
JDBC-ODBC 桥 本 地 库 Java 实 现 TT 网 络 协议 数据 库 协议 
驱动 程序 驱动 程序 НИНА | papay 
7 7E 
中 间 件 
{ү 
Есе 中 
ODBC m 
数据 库 服 
ODBC 驱 动 程序 š 
— kas 
客户 端 客户 端 
27 L 
3 ~x S aA 
服务 器 端 服务 器 端 人 服务 器 端 ) 服务 器 端 
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15 ORM 


ө-- 1.5.1 ОКМ СИ 

对 象 关系 映射 (Object Relation Mapping, ORM) 用 于 在 关系 型 数据 库 和 业务 实体 对 
象 之 间 做 一 个 映射 。 从 效果 上 说 ，ORM 创建 了 一 个 可 在 编程 语言 中 使 用 的 “虚拟 对 象 
数据 库 ”， 就 是 把 关系 型 数据 库 封装 成 业务 实体 对 象 , 在 具体 操作 业务 对 象 的 时 候 ， 就 不 
需要 再 去 和 复杂 的 SQL 语句 打交道 , 只 需 简单 地 操作 业务 对 象 的 属性 和 方法 即 可 完成 相 
关 的 数据 访问 。ORM 在 多 层 软件 架构 中 的 地 位 如 图 1.18 所 示 。 

对 象 关系 映射 提供 了 概念 性 的 、 易 于 理解 的 模型 化 数据 的 方法 。ORM 方法 论 基 于 


以 下 三 个 核心 原则 。 
О ”简单 :以 最 基本 的 形式 建 模 数据 。 
О 传达 性 : 数据 库 结构 被 任何 人 都 
能 理解 的 语言 文档 化 。 
О о 精确 性 : 基于 数据 模型 创建 正确 
标准 化 的 结构 。 持久 化 层 
Object > Hibernate 


ө-- 1.5.2 理解 ORM-、 Ra jO Ba 
а s: | 数据 库 


对 象 -关系 映射 , 是 随 着 面向 对 象 的 软 
件 开 发 方法 发 展 而 产生 的 。 面 向 对 象 的 开 27 图 118 ORM 在 多 层 软件 架构 中 的 地 位 
发 方法 是 当今 企业 级 应 用 开发 环境 中 的 主 
流 开发 方法 。 关 系数 据 库 是 企业 级 应 用 环境 中 永久 存放 数据 的 主流 数据 存储 系统 。 对 象 
和 关系 数据 是 业务 实体 的 两 种 表现 形式 ， 业 务实 体 在 内 存 中 表现 为 对 象 ， 在 数据 库 中 表 
现 为 关系 数据 。 内 存 中 的 对 象 之 间 存在 关联 和 继承 关系 ， 而 在 数据 库 中 ， 关 系数 据 无 法 
直接 表达 多 对 多 关联 和 继承 关系 。 因 此 ， 对 象 -关系 映射 系统 一 般 以 中 间 件 的 形式 存在 ， 
主要 实现 程序 中 业务 实体 对 象 到 关系 数据 库 中 数据 的 映射 。 

面向 对 象 是 在 软件 工程 基本 原则 〈 如 耦合 、 聚 合 、 封 装 ) 的 基础 上 发 展 起 来 的 ， 而 
关系 数据 库 则 是 从 关系 代数 理论 发 展 而 来 的 ， 两 套 理论 之 间 存 在 显著 的 区 别 。 为 了 解决 
这 个 不 匹配 的 现象 ， 对 象 关系 映射 技术 应 运 而 生 。 

理解 ORM 可 从 其 名 称 开始 ,字母 O 起 源 于 对 象 (Object), 而 R 则 来 自 关 系 (Relation)。 
几乎 所 有 的 应 用 程序 里 面 ， 都 存在 对 象 和 关系 数据 库 。 在 业务 罗 辑 层 和 用 户 界 面 层 〈 即 
展示 层 、 表 现 层 )， 主 要 采用 面向 对 象 的 技术 。 当 对 象 信息 发 生变 化 的 时 候 ， 需 要 把 对 象 
的 信息 保存 在 关系 数据 库 中 。 在 关系 数据 库 中 ， 使 用 关系 来 存储 应 用 程序 中 对 象 的 相关 
信息 。 在 图 1.19 中 ， 通 过 ORM 来 对 程序 中 的 Student 对 象 和 数据 库 中 的 Student 表 进 行 


自动 化 的 关联 、 映 射 。 
Student 表 
Еа 


address 


! name:Tom ! 

! sex:boy ! ŠI 8; 

| address:China |! 

' ! China 


Sex 
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开发 应 用 程序 时 如 果 不 使 用 ORM， 可 能 会 需要 编写 很 多 数据 访问 层 的 代码 ， 用 来 
从 数据 库 保 存 、 删 除 、 读 取 对 象 信息 。 例 如 ， 在 DAL 中 会 编写 很 多 的 方法 来 读 取 对 象 
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数据 、 改 变 状态 对 象 等 。 而 这 些 代 码 写 起 来 总 是 重复 的 。 以 保存 对 象 的 方法 为 例 ， 对 于 
每 个 对 象 都 要 重复 地 调用 数据 库 访 问 接口 中 的 类 ， 编 写 相应 的 代码 。 引 入 ORM 可 以 减 
少 上 述 这 些 重复 劳动 。 实 质 上 ， 一 个 ORM 会 为 开发 人 员 自 动产 生 DAL 的 代码 。 与 其 自 
己 写 DAL 代码 ,不 如 用 ORM。 如 果 使 用 ORM 保存 、 删 除 、 读 取 对 象 ，ORM 会 负责 生 
成 SQL， 而 应 用 开发 人 员 只 需要 关心 对 象 即 可 。 

一 般 的 ORM 包括 以 下 4 部 分 。 

O 一 个 对 持久 类 的 对 象 进行 CRUD 操作 的 АРІ; 

口 一 个 语言 或 API 用 来 规定 与 类 和 类 属性 相关 的 查询 ; 

О 一 个 规定 Mapping Meta Data (元 数据 ) 的 工具 ; 

а 一 种 技术 可 以 让 ORM 的 实现 同事 务 对 象 一 起 进行 脏 数据 检查 ( Dirty 

Checking )、 延 迟 加 载 (Lazy Association Fetching) 以 及 其 他 的 优化 操作 。 


@ --1.5.3 ОКМ 的 优 缺 点 ， 


自从 ORM 的 概念 被 提出 开始 , ОКМ 就 得 到 了 无 数 的 响应 ,花样 繁多 的 应 用 框架 更 
是 应 接 不 暇 。 可 见 ，ORM 是 有 独到 的 优势 的 。 

ORM 最 大 的 优势 ， 是 隐藏 了 数据 访问 的 细节 ， 使 得 通用 的 数据 库 交 互 功能 开发 变 得 
简单 易 行 ， 并 且 基 本 不 用 考虑 SQL 语句 的 琐碎 和 有 具体 的 实现 细节 。 快 速 开发 ， 由 此 而 来 。 

ORM 使 构造 固化 数据 结构 变 得 简单 易 行 。 在 ORM 之 前 的 时 代 , 开发 人 员 需 要 将 应 
用 程序 中 对 象 模型 的 数据 访问 操作 转换 为 对 应 的 SQL 语句 ， 通 过 直 连 数据 库 或 使 用 DB 
helper 在 关系 数据 库 中 构造 对 应 的 数据 库 体系 。 而 绝 大 多 数 的 ОКМ 框架 都 提供 了 通过 
对 象 模型 来 构造 关系 数据 库 结构 的 功能 。 

但 是 ， 不 可 避免 的 是 ， 任 何 优势 的 背后 都 隐藏 着 缺点 ，ORM 的 缺点 主要 如 下 。 

自动 化 的 映射 和 关联 管理 是 以 牺牲 一 定 的 性 能 为 代价 的 〈 早 期 ， 这 是 ORM 被 诉 病 
的 主要 原因 之 一 )。 而 目前 的 各 种 ORM 框架 都 在 尝试 使 用 各 种 方法 (包括 延迟 加 载 、 绥 
存 等 ) 来 降低 性 能 的 损失 ， 效 果 还 是 很 显著 的 。 

面向 对 象 的 查询 语言 作为 一 种 数据 库 与 对 象 之 间 的 过 渡 ， 虽然 隐藏 了 数据 层面 的 业 
务 抽象 ， 但 并 不 能 完全 屏蔽 掉 数 据 库 层 的 设计 ， 另 外 ， 无 疑 增加 了 开发 中 的 学 习 成 本 。 

对 于 复杂 查询 ，ORM 仍然 力不从心 。 虽 然 可 以 实现 ， 但 是 应 用 价值 仍然 较 低 。 


1.6 XML 


XML 是 由 W3C 定义 的 一 种 语言 ， 是 表示 结构 化 数据 的 行业 标准 。XML 在 电子 商 
务 、 移 动 应 用 开发 、Web Service、 云 计算 等 技术 和 领域 中 起 着 非常 重要 的 作用 。 


Ф-- 1.61 XML 简介 ~ 
1996 Е, 万 维 网 相关 技术 的 主要 设计 组 织 W3C (World Wide Web Consortium, 万 维 
网 联盟 ) 开始 创建 一 种 可 扩展 的 标记 语言 , 能 够 结合 SGML (Standard Generalized Markup 


Language, 标准 通用 标记 语言 ) 的 灵活 性 并 能 像 HTML (Hypertext Markup Language， 
超 文本 标记 语言 ) 一 样 可 以 被 广泛 接受 , 这 种 语言 就 是 XML, 其 全 称 是 Extensible Markup 
Language， 称 为 可 扩展 标记 语言 。 所 谓 可 扩展 是 指 XML 允许 用 户 按照 XML 规则 自 定 义 
标签 。XML 文件 是 由 标签 及 其 所 包含 的 内 容 构 成 的 纯 文 本 文件 ， 与 HIML 文件 不 同 的 
是 , 这 些 标签 可 自由 定义 , 目的 是 使 XML 文件 能 够 很 好 地 体现 数据 的 结构 和 含义 。W3C 
推出 XML 的 主要 目的 是 让 数据 的 内 容 更 加 容易 理解 , 使 基于 Internet 的 数据 交换 更 方便 。 
W3C 的 主页 是 http://www.w3c.org， 关 于 XML 的 网 页 在 http://www.w3c.org/XML 中 , K 
部 分 的 技术 文档 可 以 在 http:/www.w3c.org/XR 找到 。 XML 1.0 版 本 是 由 W3C 在 1998 年 
2 月 的 推荐 标准 中 定义 的 , W3C 的 推荐 标准 就 像 Internet 的 RFC (Request for Comments) 
一 样 , 是 一 种 非 正 式 的 “标准 ” 文档 中 的 许多 小 问题 和 基础 标准 的 一 些 变 化 导致 了 2000 
年 10 月 第 2 版 的 出 版 ， 第 2 版 修正 和 更 新 了 文档 ， 但 没有 改变 XML 本 身 。 

W3C 为 XML 制定 了 10 个 设计 目标 ， 有 具体 内 容 如 下 。 
XML 应 该 可 以 在 Internet 上 直接 使 用 ; 
XML 应 该 广泛 地 支持 不 同 的 应 用 ; 
XML 要 和 SGML 兼容 ; 
处 理 XML 文档 的 程序 应 该 容易 编写 ; 
XML 的 可 选 特征 应 该 保持 绝对 最 低 限 ， 最 好 是 零 ; 
XML 文件 要 易 读 、 清 晰 ; 
XML 的 设计 应 该 可 以 快速 预备 ; 
XML 应 设计 得 正规 、 简 洁 ; 
XML 文件 应 该 很 容易 创建 ; 
XML 标签 的 简洁 性 应 该 是 无 关 紧 要 的 。 

XML 的 语法 规则 非常 严格 ， 这 一 点 和 HTML 有 很 大 不 同 。HTML 本 身 语 法 十 分 不 
严格 ， 这 在 一 定 程度 上 影响 了 网 络 信息 的 传输 和 共享 。W3C 吸取 了 HTML 发 展 的 经 验 
和 教训 ， 对 XML 制定 了 严格 的 语法 标准 。 例 如 ， 标 签 都 必须 要 有 一 个 开始 标签 和 结束 
标签 ， 所 有 的 标签 都 必须 合理 嵌 套 ， 即 形成 树 状 结构 。 也 就 是 说 ，XML 文件 必须 符合 一 
定 的 语法 规则 ， 只 有 符合 这 些 规 则 ，XML 文件 才 可 以 被 XML 解析 器 解析 ， 以 便利 用 其 
中 存储 的 数据 。XML 文件 分 为 格式 良好 的 (well-formed) XML 文件 和 有 效 的 (validated) 
XML 文件 。 符 合 W3C 制定 的 基本 规则 的 XML 文件 称 为 格式 良好 的 XML 文件 ， 格 式 
良好 的 XML 文件 如 果 再 符合 额外 的 关于 标签 的 约束 则 称 为 有 效 的 XML 文件 。 

XML 可 以 很 好 地 描述 数据 的 结构 ， 有 效 地 分 离 数据 的 结构 和 数据 的 显示 , 可 以 作为 
数据 交换 的 标准 格式 , 而 在 AJAX (Asynchronous JavaScript And XML, 异步 的 JavaScript 
与 XML)、Web Service (Web 服务 )、 云 计算 等 相关 技术 中 ，XML 已 经 是 数据 交换 领域 
事实 上 的 行业 标准 。 而 HTML 是 用 来 编写 Web 页 面 的 语言 ，HTML 同时 存储 了 数据 的 
内 容 和 数据 的 显示 外 观 ， 如 果 只 想 使 用 数据 而 不 需要 显示 , 则 需要 对 HTML 进行 专门 的 
处 理 。 例 如 ， 在 Internet 上 广泛 使 用 的 搜索 引擎 ， 在 抓 取得 到 Web 页 面 之 后 就 需要 去 除 
页 面 中 包含 的 标签 ， 保 留 页 面 中 有 用 的 数据 并 用 于 建立 索引 。 另 外 ，HTML 不 允许 用 户 
定义 标签 , 目前 的 HTML 大 约 有 一 百 多 个 标签 .HTML 不 是 专门 用 于 存储 数据 的 结构 ， 
主要 用 于 描述 数据 的 显示 格式 。 


DOOOOOOOOO 


第 
1 
章 
数 
据 
É 
# 
发 
Ë 
Ж 
概 
Ж 


@ 162 XML 的 优点 - 


1. 良好 的 可 扩展 性 


在 XML 产生 之 前 ， 要 定义 一 个 标记 语言 并 推广 利用 非常 困难 。 一 方面 ， 如 果 制 定 
了 一 个 新 的 标记 语言 并 期 望 能 生效 ， 需 要 把 这 个 标准 提交 给 相关 的 组 织 (如 W3C)， 等 
待 接受 并 正式 公布 这 个 标准 ， 经 过 几 轮 的 评定 和 修改 ， 到 这 个 标记 语言 终于 成 为 一 个 正 
式 推荐 标准 时 ， 可 能 已 经 用 了 几 年 的 时 间 。 另 一 方面 ， 为 了 让 这 套 标 签 得 到 广泛 应 用 ， 
制定 者 必须 为 它 配备 浏览 工具 。 这 样 ， 就 不 得 不 去 游说 各 个 浏览 器 厂商 接受 并 支持 新 制 
定 的 标签 ， 或 者 自己 开发 一 个 新 的 浏览 器 ， 与 现 有 的 浏览 器 竞争 。 无 论 上 述 哪个 办 法 ， 
都 需要 耗费 大 量 的 时 间 和 工作 。 现 在 借助 XML 的 帮助 ， 制 定 新 的 标记 语言 要 简单 易 行 
得 多 ， 这 也 正 是 XML 的 优势 所 在 。 

各 个 行业 可 能 会 有 一 些 独特 的 要 求 。 例如, 化 学 家 需要 化 学 公式 中 的 一 些 特殊 符号 ， 
建筑 家 需要 设计 图 样 中 的 某 些 特殊 标记 ， 音 乐 家 需要 音符 ， 这 些 都 需要 单独 的 标记 。 但 
是 ， 网 页 设计 者 一 般 不 会 使 用 这 些 记号 ， 因 此 不 需要 这 些 标签 。XML 的 优点 就 在 于 允许 
各 个 组 织 、 个 人 建立 适合 自己 需要 的 标签 库 ， 并 且 这 个 标签 库 可 以 迅速 地 投入 使 用 。 

不 仅 如 此 ， 随 着 当今 世界 越 来 越 多 元 化 ， 要 想 定义 一 套 各 行 各 业 都 能 够 广泛 应 用 的 
标签 既 困 难 ， 也 没有 必要 。XML 允许 各 个 行业 根据 自己 独特 的 需要 制定 自己 的 一 套 标 
签 ， 同 时 并 不 要 求 所 有 浏览 器 都 能 处 理 这 成 千 上 万 的 标签 ， 同 样 也 不 要 求 标记 语言 的 
制定 者 制定 出 一 个 非常 详尽 、 非 常 全 面 的 语言 ， 从 而 适合 各 个 行业 、 各 个 领域 的 应 用 。 
比 起 那些 追求 大 而 全 的 标记 语言 , 这 种 具体 问题 具体 分 析 的 方法 实际 上 更 有 助 于 标记 语 
言 的 发 展 。 

实际 上 ， 现 在 许多 行业 、 机 构 都 利用 XML 定义 了 自己 的 标记 语言 ， 比 较 早 而 且 比 
较 典 型 的 有 : 化 学 标记 语言 CML (Chemical Markup Language, H Peter Murray-Rust 等 
人 制定 ) 和 数学 标记 语言 (MathML 10, W3C 的 推荐 标准 ，1998 年 4 月 7 日 )。 


2. 内 容 与 形式 的 分 离 


XML 不 仅 允 许 自 定义 一 套 标签 , 而 且 这 些 标签 不 必 仅 限于 对 显示 格式 的 描述 。 XML 
允许 根据 不 同 的 规则 来 制定 标签 ， 比 如 根据 商业 规则 、 数 据 描述 甚至 可 以 根据 数据 关系 
来 制定 标签 。 数 据 自身 的 逻辑 不 得 不 让 位 于 HTML 规范 的 逻辑 。 如 果 要 用 Java Applet 
来 处 理 数据 ， 则 这 个 Java Applet 将 不 得 不 遍历 整个 HTML 文件 ， 把 所 有 的 HTML 标记 
JRH, 再 把 剥离 出 来 的 有 用 的 数据 重新 组 织 。 同样 , 任何 一 个 不 是 单纯 为 了 显示 HTML 
文件 的 应 用 程序 在 处 理 HIML 文件 中 的 数据 时 ， 都 不 得 不 做 大 量 的 额外 工作 。 

XML 内 容 与 显示 相 分 离 的 优点 如 下 。 

在 XML 中 ， 显 示 样 式 从 数据 文档 中 分 离 出 来 ， 放 在 样式 单 文件 中 。 这 样 ， 如 果 要 
改动 信息 的 表现 方式 ， 无 须 改动 信息 本 身 ， 只 要 修改 样式 单 文 件 即 可 。 如 果 要 把 表格 的 
数据 改 用 列表 显示 ， 则 无 须 再 去 修改 数据 文档 ， 因 为 数据 文档 的 显示 方式 已 经 委托 给 样 
式 单 文件 了 ， 只 要 修改 相应 的 样式 单 文件 即 可 。 


在 XML 中 数据 搜索 可 以 简单 、 高 效 地 进行 。 搜 索引 擎 没有 必要 再 去 遍历 整个 XML 
文档 ， 只 须 找 相 关 标 签 下 的 内 容 。 例 如 ， 要 查找 “Java 面向 对 象 程序 设计 ”， 只 要 看 看 
<title> 这 个 标签 下 的 字符 串 数 据 是 否 匹 配 即 可 ， 此 处 title 标签 用 于 存储 图 书 的 名 称 信息 
(参见 第 6 章 )。 

XML 是 自我 描述 的 语言 。 即便 是 对 预先 定义 的 标签 一 无 所 知 的 人 , 这 个 文档 也 是 清 
晰 可 读 的 。 例 如 ，XML 文档 中 的 <isbn>9787302489078</isbn> 代 表 了 一 本 教材 (本 书 作 
者 主编 的 《Java 面向 对 象 程序 设计 》 教 材 ) 的 ISBN 编号 信息 。 可 是 HTML 文档 就 不 那 
么 清楚 了 。 此 外 ， 信 息 之 间 的 某 些 复杂 关系 ， 比 如 树 状 结构 、 继 承 关系 等 ， 在 XML 中 
也 都 得 到 了 很 好 的 体现 ， 这 样 就 大 大 方便 了 XML 应 用 处 理 程序 的 开发 。 


3. 遵循 严格 的 语法 要 求 


HTML 的 语法 要 求 并 不 严格 ， 浏 览 器 可 以 显示 有 文法 错误 的 HTML 文件 。 但 是 ， 
XML ЯН Ж Жай, ИЕ, ПНЕ ИН) DTD (Document Type Definition, 
文档 类 型 定义 ) 或 者 XML Schema 的 规定 。XML 非常 注重 准确 性 ， 无 论语 法 有 什么 差 
错 ，XML 分 析 器 都 会 停止 进一步 处 理 。 在 处 理 HIML 文件 时 ， 浏 览 器 通常 具备 一 个 内 
置 的 修改 功能 去 猜测 HTML 文件 中 漏 掉 了 什么 ， 并 试图 修改 这 个 有 错误 的 HTML 文件 。 
XML 解析 器 则 不 同 ， 无 论 这 个 XML 解析 器 是 内 散在 浏览 器 中 还 是 作为 独立 的 处 理 器 ， 
都 绝对 不 允许 猜测 和 修改 。 就 像 编 译 程序 一 样 ， 一 个 XML 文档 或 者 被 判断 为 “正确 ” 
而 被 接受 ， 或 者 被 判断 为 “错误 ”而 不 被 接受 。 这 是 因为 XML 的 宗旨 在 于 通过 自 定义 
的 标签 来 传递 结构 化 的 数据 ， 一 个 XML 文档 分 析 器 无 法 像 处理 一 个 已 有 了 一 套 固定 
DTD 的 HTML 文件 那样 猜 出 文件 中 到 底 有 什么 ， 或 者 缺 什么 。 

严格 的 语法 要 求 固然 表面 上 显得 烦琐 ， 但 具有 良好 语法 结构 的 文档 可 以 提供 较 好 的 
可 读 性 和 可 维护 性 ， 从 长 远 来 看 还 是 大 有 神 益 的 。 这 大 大 减轻 了 XML 应 用 程序 开发 人 
员 的 负担 , 也 提高 了 XML 处 理 的 时 间 和 空间 效率 。 随 着 XML 的 自动 生成 工具 和 所 见 即 
所 得 的 编辑 器 的 广泛 使 用 ，XML 的 编写 者 也 就 不 用 操心 XML 的 源 代码 ， 更 不 用 去 想 
XML 琐碎 的 语法 规则 了 。 当 然 ， 这 对 于 XML 的 开发 工具 也 就 提出 了 较 高 的 要 求 。 


4. 便于 信息 的 传输 


当今 的 计算 机 世界 中 ， 不 同 企业 、 不 同 部 门 中 存在 着 许多 不 同 的 系统 。 操 作 系统 有 
Windows、UNIX 等 ， 数 据 库 管 理 系 统 有 DB2、SQL Server、Oracle 等 ， 要 想 在 这 些 不 同 
的 平台 、 不 同 的 数据 库 管理 系统 之 间 传 输 信息 ， 不 得 不 使 用 一 些 特殊 的 软件 ， 这 样 就 非 
常 不 方便 。 而 不 同 的 显示 界面 ， 从 工作 站 、 个 人 计算 机 到 移动 终端 (例如 手机 、 平 板 电 
脑 等 )， 使 这 些 信息 的 个 性 化 显示 也 变 得 相当 复杂 。 

有 了 XML， 各 种 不 同 的 系统 之 间 可 以 采用 XML 作为 交流 媒介 。XML 不 但 简单 易 
读 ， 而 且 可 以 标记 各 种 文字 、 图 像 甚 至 二 进 制 文件 ， 只 要 有 了 XML 处 理工 具 ， 就 可 以 
轻松 地 读 取 并 利用 这 些 数 据 , 这 使 得 XML 成 为 异 构 系统 之 间 一 种 理想 的 数据 交换 格式 。 


5. 具有 较 好 的 保值 性 
XML 的 保值 性 来 自 它 的 先驱 SGML。SGML 作为 一 套 有 着 十 几 年 历史 的 国际 标准 ， 
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最 初 设计 的 目标 是 要 为 文档 提供 50 年 以 上 的 寿命 。 

我 们 是 通过 流传 至 今 的 大 量 历史 文献 知道 祖先 悠久 辉煌 的 历史 ， 同 样 ， 我 们 的 后 代 
也 要 靠 我 们 留 下 的 文字 资料 来 了 解 我 们 。 可 是 现在 大 部 分 资料 都 是 电子 文档 的 形式 ， 而 
且 很 多 没有 被 打印 下 来 单独 存档 。 若 干 年 后 ， 我 们 的 子孙 很 可 能 面 对 着 这 些 电 子 文档 ， 
苦于 没有 软件 工具 能 够 打开 。 如 果 没 有 XML， 恺 怕 只 有 两 个 办 法 : 要 么 返 瑛 归真 继续 使 
用 纸 介质 ， 要 么 不 辞 辛苦 随 着 软件 的 更 新 换代 来 大 规模 地 转换 原 有 文档 到 最 新 格式 。 
SGML 和 XML 不 但 能 够 长 期 作为 一 种 通用 的 标准 , 而 且 很 容易 向 其 他 格式 的 文档 转换 ， 
它们 的 设计 对 这 一 问题 给 出 了 圆满 的 解决 方案 。 


@ -6:3 一 XME 的 应 用 


设计 XML 的 本 意 是 用 来 存储 、 传 送 和 交换 数据 ， 而 不 是 用 来 显示 数据 ， 主 要 用 途 
如 下 。 


1. 创建 新 的 标记 语言 


作为 元 标记 语言 , XML 可 以 为 用 户 定义 适合 本 行业 领域 的 标记 语言 。 目 前 这 一 应 用 
的 成 功 案例 比比 皆 是 ， 例 如 ， 化 学 领域 的 CML、 数 学 领域 的 MathML、 移 动 通信 和 领域 的 
WML 等 。 


2. 数据 存储 


XML 文档 是 带 有 一 定语 义 的 纯 文 本 格式 的 文件 , 可 以 用 于 存储 数据 , 也 可 以 方便 地 
编写 应 用 程序 来 存储 和 读 取 数据 。 由 于 XML 独立 于 硬件 、 软 件 系统 ， 因 此 也 可 以 使 用 
除 标准 HTML 浏览 器 之 外 的 其 他 应 用 程序 使 用 XML 数据 文档 。 其 他 应 用 程序 也 可 以 将 
XML 文档 作为 数据 源 来 访问 , 就 像 访问 数据 库 一 样 , 使 得 用 XML 存储 的 数据 更 为 有 用 。 
XML 良好 的 自 描述 性 也 使 它 成 为 保存 历史 档案 ,如 政府 文件 、 公 文 、 科 学 研究 报告 等 文 
档 数 据 的 最 佳 选择 方案 。 


3. 数据 交换 


使 用 XML 可 以 将 数据 在 异 构 系 统 之 间 进 行 传输 。 在 现实 中 ， 异 构 的 计算 机 系统 和 
数据 库 管理 系统 所 包含 的 数据 格式 互 不 兼容 。 将 数据 转换 成 XML 格式 就 能 够 被 不 同类 
型 的 多 种 应 用 程序 阅读 ， 可 以 大 大 地 降低 应 用 的 复杂 性 。XML 也 成 为 Internet 上 企业 之 
间 交 换 信息 的 主要 数据 格式 。2005 年 推出 并 已 得 到 广泛 应 用 的 AJAX 技术 , 即 采 用 XML 
作为 信息 交换 的 数据 格式 。 在 分 布 式 计算 的 最 新 技术 一 一 Web Service 技术 中 ，XML 同 
样 作为 数据 传输 和 数据 交换 的 实现 方式 。 目 前 除 XML 之 外 , 还 有 一 个 比 XML 更 轻 量 级 
的 数据 交换 格式 一 一 JSON (JavaScript Object Notation) 也 开始 得 到 广泛 的 应 用 (参见 第 
7 章 )。 


4. Web 应 用 


由 于 XML 是 由 SGML 特别 为 Web 简化 的 ， 因 此 XML 文档 将 成 为 Web 资源 的 重 


要 组 成 部 分 ， 同 时 XML 也 使 搜索 引擎 更 为 智能 和 准确 。XML fE Web 方面 的 应 用 有 如 
下 几 个 方面 。 

а ”集成 不 同 数据 源 。XML 文档 可 以 用 来 描述 包含 在 不 同 应 用 的 数据 ， 从 Web 页 
面 到 数据 库 记 录 等 ，Web 应 用 的 中 间 层 服务 程序 将 这 些 用 XML 表示 的 数据 组 
合 起 来 ， 然 后 提交 给 客户 端 或 者 下 一 步 的 应 用 。XML 还 提供 客户 端 包含 机 制 ， 
可 以 将 多 个 来 源 的 数据 集成 在 一 个 文档 内 显示 。 

口 ” 本 地 计算 。XML 数据 传输 到 客户 端 后 ， 客 户 端 可 以 利用 XML 分 析 器 对 数据 进 
行 解析 和 操作 ,在 完成 系统 所 需 功 能 的 同时 ,合理 分 配 客户 端 和 服务 器 的 负荷 。 
数据 库 记 录 可 以 直接 传输 到 客户 端 ， 然 后 再 进行 排序 ,传统 的 HTML 就 无 法 做 
到 这 一 点 。 

О 数据 的 多 种 显示 。XML 将 内 容 和 表现 分 离 ，XML 只 描述 数据 的 结构 和 语义 ， 
显示 外 观 则 通过 样式 单 文件 (CSS 或 者 KSL) 进行 描述 。 因 此 ， 只 需 在 显示 时 
配置 不 同 的 样式 单 ， 即 可 实现 多 种 显示 效果 。 

О 网 络 出 版 。 随 着 互联 网 的 发 展 ， 网 络 已 经 成 为 一 种 新 的 媒体 ， 人 们 在 网 络 上 发 
布 各 种 信息 ， 信 息 的 发 布 形式 和 发 布 语言 也 多 种 多 样 ， 其 中 ， 基 于 XML 的 显 
示 技 术 和 显示 语言 发 挥 着 重要 作用 。 比 如 eBook、eNewspaper 等 ， 就 利用 了 
XML 的 显示 语言 。 

О 支持 Web 应 用 的 互 操作 和 集成 。Web 界面 定义 语言 (Web Interface Definition 
Language, WIDL) 是 WebMethods 公司 定义 的 一 个 XML 应 用 ， 是 能 够 用 于 
Web 的 资源 和 企业 应 用 接口 的 语言 标准 。 通 过 它 ，Web 应 用 可 以 自动 存 取 Web 
资源 和 企业 应 用 。 

总 之 ， 作 为 表示 结构 化 数据 的 行业 标准 ，XML 向 软件 组 织 、 软 件 开发 人 员 、Web 

站 点 和 最 终 用 户 提供 了 极 大 的 便利 。 在 电子 商务 、 云 计算 、 物 联网 等 技术 领域 , 使 用 XML 
的 力度 将 进一步 增 大 。XML 是 W3C 推出 的 标准 ， 已 获得 非常 广泛 的 行业 支持 ，W3C 研 
究 小 组 确保 对 工作 在 多 系统 和 多 浏览 器 上 的 用 户 之 间 的 互 操作 性 支持 , 并 不 断 加 强 XML 
МИЕ. XML 在 采用 简单 、 柔 性 的 标准 化 格式 表达 以 及 在 应 用 程序 之 间 交 换 数 据 方面 是 一 
个 革命 性 的 进步 。XML 不 仅 提供 了 直接 在 数据 上 工作 的 通用 方法 ,而 且 XML 的 优势 在 
于 将 用 户 界面 和 结构 化 数据 相 分 离 ， 允 许 不 同 来 源 数据 的 无 颖 集成 和 对 同一 数据 的 多 种 
处 理 。 从 数据 描述 语言 的 角度 看 ，XML 是 灵活 的 、 可 扩展 的 ， 有 着 良好 的 结构 和 约束 规 
MU; 从 数据 处 理 的 角度 看 ，XML 足够 简单 并 易于 阅读 ， 几 乎 和 HTML 一 样 容易 学 习 ， 
同时 比 HTML 更 易于 被 应 用 程序 处 理 ， 因 此 ，XML 目前 已 经 成 为 结构 化 数据 表示 与 交 
换 的 事实 上 的 行业 标准 ， 并 将 随 着 分 布 式 计算 、 移 动 计算 、 云 计算 、 物 联网 等 新 兴 技 术 
和 应 用 领域 的 发 展 得 到 更 广泛 的 应 用 。 


1.7 大 数据 与 NoSQL < 


大 数据 ， 指 无 法 在 一 定时 间 范 围 内 用 常规 软件 工具 进行 捕 握 、 管 理 和 处 理 的 数据 集 
合 ， 是 需要 新 处 理 模式 才能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 海量 、 高 
增长 率 和 多 样 化 的 信息 资产 。 在 维克托 : 迈 尔 - 舍 恩 伯 格 及 肯 尼 斯 - 库 克 耶 编写 的 《大 数据 


第 
1 
= 
数 
据 
É 
# 
发 
技 
术 
概 
ië 


时 代 》 中 ， 大 数据 指 不 用 随机 分 析 法 〈 抽 样 调 查 ) 这 样 的 捷径 ， 而 采用 所 有 数据 进行 分 
析 处 理 。 大 数据 的 SV 特点 包括 OBM 提出 ): Volume (KŒ), Velocity (高 速 )、Variety 
(多 样 )、Value〔 低 价值 密度 )、Veracity (真实 性 )。 

对 于 “大 数据 ”研究 机 构 Gartner 给 出 了 这 样 的 定义 :“ 大 数据 ”是 需要 新 处 理 模 
式 才 能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 来 适应 海量 、 高 增长 率 和 多 样 化 
的 信息 资产 。 麦 肯 锡 全 球 研究 所 给 出 的 定义 是 : 一 种 规模 大 到 在 获取 、 存 储 、 管 理 、 分 
析 方 面 大 大 超出 了 传统 数据 库 软 件 工具 能 力 范围 的 数据 集合 ， 具 有 海量 的 数据 规模 、 快 
速 的 数据 流转 、 多 样 的 数据 类 型 和 价值 密度 低 4 大 特征 。 

大 数据 技术 的 战略 意义 不 在 于 掌握 庞大 的 数据 信息 ， 而 在 于 对 这 些 含有 意义 的 数据 
进行 专业 化 处 理 。 换 而 言 之 ， 如 果 把 大 数据 比 作 一 种 产业 ， 那 么 这 种 产业 实现 盈利 的 关 
键 在 于 提高 对 数据 的 “加 工 能 力 ”， 通 过“ 加工 ”实现 数据 的 “增值 ”。 

随 着 云 时 代 的 来 临 ， 大 数据 也 吸引 了 人 们 越 来 越 多 的 关注 。 分 析 师 团 队 认 为 ， 大 数 
据 通常 用 来 形容 一 个 公司 创造 的 大 量 非 结构 化 数据 和 半 结 构 化 数据 ， 这 些 数据 在 下 载 到 
关系 型 数据 库 用 于 分 析 时 会 花费 过 多 时 间 和 金钱 。 大 数据 分 析 常 和 云 计 算 联 系 到 一 起 ， 
因为 实时 的 大 型 数据 集 需 要 像 MapReduce 一 样 的 框架 来 向 数 十 、 数 百 甚至 数 千 的 计算 机 
分 配 工作 。 

大 数据 需要 特殊 的 技术 。 适 用 于 大 数据 的 技术 ， 包 括 大 规模 并 行 处 理 (MPP) 数据 库 、 
数据 挖掘 、 分 布 式 文件 系统 、 分 布 式 数据 库 、 云 计算 平台 、 互 联网 、 可 扩展 的 存储 系统 。 

大 数据 包括 结构 化 、 半 结构 化 和 非 结 构 化 数据 ， 非 结构 化 数据 越 来 越 成 为 数据 的 主 
要 部 分 。 据 IDC 的 调查 报告 显示 : 企业 中 80% 的 数据 都 是 非 结 构 化 数据 ， 这 些 数 据 每 年 
都 按 指 数 增长 60%。 大 数据 就 是 互联 网 发 展 到 现今 阶段 的 一 种 表象 或 特征 而 已 。 在 以 云 
计算 为 代表 的 技术 创新 大 幕 的 衬托 下 ， 这 些 原 本 看 起 来 很 难 收 集 和 使 用 的 数据 开始 容易 
被 利用 起 来 了 ， 通 过 各 行 各 业 的 不 断 创 新 ， 大 数据 会 逐步 为 人 类 创造 更 多 的 价值 。 

其 次 ， 想 要 系统 地 认 知 大 数据 ， 必 须要 全 面 而 细致 地 分 解 它 ， 着 手 从 三 个 层面 来 展 
开 ， 如 图 1.20 所 示 。 


SKER (Utilization) 
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[7 @120 ,大 数据 认 知 的 三 个 层面 


第 一 层面 是 理论 。 理 论 是 认 知 的 必 经 途径 ， 也 是 被 广泛 认同 和 传播 的 基线 。 在 这 里 
从 大 数据 的 特征 定义 理解 行业 对 大 数据 的 整体 描绘 和 定性 ， 从 对 大 数据 价值 的 探讨 来 深 
入 解析 大 数据 的 珍贵 所 在 ， 洞 悉 大 数据 的 发 展 趋势 ， 从 大 数据 隐私 这 个 特别 而 重要 的 视 
角 审 视 人 和 数据 之 间 的 长 久 博弈 。 

第 二 层面 是 技术 。 技 术 是 大 数据 价值 体现 的 手段 和 前 进 的 基石 。 在 这 里 分 别 从 云 计 
算 、 分 布 式 处 理 技术 、 存 储 技术 和 感知 技术 的 发 展 来 说 明 大 数据 从 采集 、 处 理 、 存 储 到 
形成 结果 的 整个 过 程 。 

第 三 层面 是 实践 。 实 践 是 大 数据 的 最 终 价 值 体现 。 在 这 里 分 别 从 互联 网 的 大 数据 、 
政府 的 大 数据 、 企 业 的 大 数据 和 个 人 的 大 数据 4 个 方面 来 描绘 大 数据 已 经 展现 的 美好 景 
象 及 即将 实现 的 蓝图 。 

Big Data 作为 一 个 专 有 名 词 成 为 热点 ， 主 要 应 归功 于 近年 来 互联 网 、 云 计算 、 移 动 
互联 网 和 物 联网 的 迅猛 发 展 。 无 所 不 在 的 移动 设备 、RFID、 无 线 传感器 每 分 每 秒 都 在 产 
生 数 据 ， 数 以 亿 计 用 户 的 互联 网 服务 时 时 刻 刻 在 产生 巨 量 的 交互 。 要 处 理 的 数据 量 实在 
是 太 大 、 增 长 太 快 了 ， 而 业务 需求 和 竞争 压力 对 数据 处 理 的 实时 性 、 有 效 性 又 提出 了 更 
高 的 要 求 ， 传 统 的 常规 技术 手段 根本 无 法 应 付 。 

在 这 种 情况 下 ， 技 术 人 员 纷 纷 研发 和 采用 了 一 批 新 技术 ， 主 要 包括 分 布 式 缓存 、 基 
于 MPP 的 分 布 式 数据 库 、 分 布 式 文件 系统 、 各 种 NoSQL 分 布 式 存储 方案 等 。 

2000 年 7 月 ,加 州 大 学 Berkeley 分 校 Eric Brewer 教 授 提 出 了 著名 的 CAP(Consistency 
一 致 性 ，Availability 可 用 性 ，Partition Tolerance 分 区 容忍 性 ) 猜想 。 两 年 后 ， 来 自 麻 省 
理工 学 院 的 Seth Gilbert 和 Nancy Lynch 从 理论 上 证 明了 САР, МЖ САР 定理 成 为 分 布 
式 计 算 领 域 公认 的 定理 。CAP 定理 指出 : 一 个 分 布 式 系统 不 可 能 满足 一 致 性 
(CConsistency)、 可 用 性 (Availability) 和 分 区 容忍 性 (Partition Tolerance) 这 三 个 需求 ， 
最 多 只 能 同时 满足 两 个 。 系 统 的 关注 点 不 同 ， 采 用 的 策略 也 不 一 样 。 只 有 真正 理解 了 系 
统 的 需求 ， 才 有 可 能 利用 好 CAP 定理 。 

架构 师 一 般 从 以 下 两 个 方向 来 利用 CAP 理论 。 

О Key-Value 存储 ， 如 Amazon Dynamo 等 ， 可 以 根据 САР 理论 灵活 选择 不 同 倾 

向 的 数据 库 产品 。 
口 ” 领域 模型 + 分 布 式 缓存 + 存储 ， 可 根据 CAP 理论 结合 自己 的 项 目 定制 灵活 的 分 
布 式 方案 ， 但 难度 较 高 。 

对 大 型 网 站 ， 可 用 性 与 分 区 容忍 性 优先 级 要 高 于 数据 一 致 性 ， 一 般 会 尽量 朝 着 A、 
P 的 方向 设计 ， 然 后 通过 其 他 手段 保证 对 于 一 致 性 的 商务 需求 。 架 构 设 计 师 不 要 将 精 
力 浪费 在 如 何 设计 能 满足 三 者 的 完美 分 布 式 系 统 ， 而 应 该 懂得 取舍 。 不 同 的 数据 对 一 
致 性 的 要 求 是 不 同 的 。SNS 网 站 可 以 容忍 相对 较 长 时 间 的 不 一 致 ， 而 不 影响 交易 和 用 
户 体验 ;而 像 支 付 宝 这 样 的 交易 和 账 务 数据 则 是 非常 敏感 的 ， 通 常 不 能 容忍 超过 秒 级 
的 不 一 致 。 

在 大 数据 相关 技术 中 ， 包 括 缓存 、 分 布 式 数 据 库 、 分 布 式 文件 系统 等 相关 技术 ， 以 
下 分 而 述 之 。 
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1. 缓存 


缓存 在 Web 开发 中 运用 越 来 越 广泛 ，memcached 是 апра сот (运营 LiveJournal 的 
技术 团队 ) 开发 的 一 套 分 布 式 内 存 对 象 缓存 系统 ,用 于 在 动态 系统 中 减少 数据 库 负载 ， 提 
升 性 能 。memcached 具有 以 下 特点 : 协议 简单 ; 基于 
libevent 的 事件 处 理 ， 内 置 内 存 存储 方式 ; memcached 
不 互相 通信 的 分 布 式 ， 其 架构 如 图 1.21 所 示 。 

memcached 处 理 的 原子 是 每 一 个 (Key, Value) 


Imemcached|memcached|memcached 


对 (以 下 简称 KV 对 )，Key 会 通过 一 个 Hash 算法 转 
换 成 Hash-Key， 便 于 查找 、 对 比 以 及 做 到 尽 可 能 的 客户 端 程序 库 


散 列 。 同 时 ，memcached 用 的 是 一 个 二 级 散 列 ， 通 过 
一 张大 的 Hash 表 来 维护 。 

memcached 由 两 个 核心 组 件 组 成 :， 服务 端 (ms) 
和 客户 端 (mc)。 在 一 个 memcached 的 查询 中 ，ms 
先 通过 计算 Key 的 Hash 值 来 确定 KV 对 所 处 在 的 ms 
位 置 。 当 ms 确定 后 , mc 就 会 发 送 一 个 查询 请 求 给 对 
应 的 ms， 让 它 来 查找 确切 的 数据 。 因 为 这 之 间 没 有 交互 以 及 多 播 协议 ， 所 以 memcached 
交互 带 给 网 络 的 影响 是 最 小 化 的 。 

Метсасћерв 是 一 个 分 布 式 、Key-Value 形式 的 持久 存储 系统 。 它 不 是 一 个 缓存 组 
件 ， 而 是 一 个 基于 对 象 存 取 的 、 可 靠 的 、 快 速 的 持久 存储 引擎 。 协 议 与 тетсасћед — 0 

(不 完整 ), 所 以 很 多 memcached 客户 端 都 可 以 跟 它 连接 .MemcacheDB 采用 Berkeley DB 

作为 持久 存储 组 件 ， 因 此 很 多 Berkeley DB 的 特性 都 支持 。 

类 似 这 样 的 产品 也 有 很 多 ， 如 淘宝 Tair 就 是 Key-Value 结构 存储 。 后 来 Tair 也 做 了 
一 个 持久 化 版 本 ， 思 路 基本 与 新 浪 的 MemcacheDB 一 致 。 


2. 分 布 式 数据 库 


支付 宝 公司 在 国内 最 早 使 用 Greenplum 数据 库 ， 将 数据 仓库 从 原来 的 Oracle КАС 
平台 迁移 到 Greenplum 集群 。Greenplum 强大 的 计算 能 力 用 来 支持 支付 宝 日 益 发 展 的 业 

Greenplum 数据 引擎 软件 是 专 为 新 一 代数 据 仓 库 所 需 的 大 规模 数据 和 复杂 查询 所 设 
计 的 ， 是 基于 MPP (海量 并 行 处 理 ) 和 Shared-Nothing (完全 无 共享 ) 架构 ， 基 于 开源 
软件 和 x86 商用 硬件 设计 〈 性 价 比 更 高 )。 


3. 分 布 式 文件 系统 


谈 到 分 布 式 文件 系统 , 不 得 不 提 的 是 Google 的 GFS. 基于 大 量 安装 有 Linux 操作 
系统 的 普通 PC 构成 的 集群 系统 ， 整 个 集群 系统 由 一 台 Master (通常 有 几 台 备份 ) 和 
若干 台 TrunkServer 构成 。GFS 中 文件 备份 成 固定 大 小 的 Trunk 分 别 存储 在 不 同 的 
TrunkServer E, 每 个 Trunk 有 多 份 (通常 为 三 份 ) 拷贝 , 也 存储 在 不 同 的 TrunkServer 
上 。Master 负责 维护 GFS 中 的 Metadata, 即 文件 名 及 其 Trunk 信息 .客户 端 先 从 Master 


WebServer 群 
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上 得 到 文件 的 Metadata， 根 据 要 读 取 的 数据 在 文件 中 的 位 置 与 相应 的 TrunkServer 18 
信 ， 获 取 文 件数 据 ， 如 图 1.22 所 示 (CKK Facebook 工程 师 做 的 Hive 和 Hadoop 的 关 
系 图 )。 
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在 Google 的 论文 发 表 后 ， 就 诞生 了 Hadoop. RESH, Hadoop 被 很 多 中 国 互 联网 
公司 所 追捧 ， 百 度 的 搜索 日 志 分 析 ， 腾 讯 、 淘 宝 和 支付 宝 的 数据 仓库 都 可 以 看 到 Hadoop 
的 身影 。 

Hadoop 具备 低廉 的 硬件 成 本 、 开 源 的 软件 体系 、 较 强 的 灵活 性 、 人 允许 用 户 自己 修改 
代码 等 特点 ， 同 时 能 支持 海量 数据 存储 和 计算 任务 。 

Hive 是 一 个 基于 Hadoop 的 数据 仓库 平台 ，Hive 上 的 操作 都 被 转换 为 相应 的 
MapReduce 程序 ， 之 后 在 Hadoop 中 运行 。 通 过 Hive， 开 发 人 员 可 以 方便 地 进行 ETL JF 
发 。ETL 是 Extract-Transform-Load 的 缩写 ,用 来 描述 将 数据 从 来 源 端 经 过 抽取 (extract)、 
转换 (transform)、 加 载 (load) 至 目的 端的 过 程 。 


4. NoSQL 数据 库 


随 着 数据 量 增长 ， 越 来 越 多 的 人 关注 NoSQL， 特 别 是 2010 年 下 半年 ，Facebook 选 
择 HBase 来 做 实时 消息 存储 系统 ， 蔡 换 原来 开发 的 Cassandra 系统 ， 这 使 得 很 多 人 开始 
关注 HBase。Facebook 选择 HBase 是 基于 短期 小 批量 临时 数据 和 长 期 增长 的 很 少 被 访问 
到 的 数据 这 两 个 需求 来 考虑 的 。 

HBase 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存 储 系统 ， 利 用 HBase 
技术 可 在 廉价 PC Server 上 搭建 大 规模 结构 化 存储 集群 。HBase 是 BigTable 的 开源 实现 ， 
使 用 HDFS 作为 其 文件 存储 系统 。Google 运行 MapReduce 来 处 理 BigTable 中 的 海量 数 
据 ，HBase 同样 利用 MapReduce 来 处 理 HBase 中 的 海量 数据 :BigTable 利用 Chubby (Е 
为 协同 服务 ，HBase 则 利用 Zookeeper 作为 对 应 。 

JEER, NoSQL 数据 库 的 使 用 越 来 越 普及 ,几乎 所 有 的 大 型 互联 网 公司 都 在 这 个 领 
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域 进 行 着 实践 和 探索 。 在 享受 了 这 类 数据 库 与 生 俱 来 的 扩展 性 、 容 错 性 、 高 读 写 吞吐 外 
(尽管 各 主流 NoSQL 仍 在 不 断 完善 中 )， 越 来 越 多 的 实际 需求 把 人 们 带 到 了 NoSQL 并 
不 擅长 的 其 他 领域 ， 比 如 搜索 、 准 实时 统计 分 析 、 简 单 事务 等 。 实 践 中 一 般 会 在 NoSQL 
的 外 围 组 合 一 些 其 他 技术 形成 一 个 整体 解决 方案 。 


习题 1 


1. 在 数据 库 发 展 的 历史 阶段 中 ， 应 用 程序 和 数据 之 间 的 关系 是 怎样 的 ? 
2. 简要 说 明 数 据 库 体系 结构 中 的 逻辑 独立 性 的 含义 和 作用 。 

3. 简要 说 明 常 见 的 数据 库 访问 技术 。 

4. 说 明 多 层 软件 架构 的 含义 ， 以 及 其 中 数据 访问 层 的 任务 和 作用 。 

5. 说 明 XML 的 特点 ， 以 及 在 数据 存储 和 数据 交换 中 的 应 用 。 

6. 调研 说 明 大 数据 在 某 一 两 个 领域 中 的 典型 应 用 案例 。 


数据 库 管 理 系统 


数据 库 技术 始 于 20 世纪 60 年 代 ， 是 为 满足 数据 管理 任务 的 需要 而 产生 的 。 数 据 处 
理 是 对 各 种 数据 进行 收集 、 存 储 、 加 工 和 传播 的 一 系列 活动 的 总 和 。 数 据 管理 是 对 数据 
进行 分 类 、 组 织 、 编 码 、 存 储 、 检 索 和 维护 ， 它 是 数据 处 理 的 中 心 问题 。 
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数据 库 按照 数据 间 固 有 的 逻辑 关系 组 织 存放 。 数 据 库 管理 系统 (DataBase 
Management System, DBMS) 是 管理 数据 库 并 为 用 户 提供 服务 的 软件 。 传 统 数据 库 中 的 
数据 是 存放 在 外 存 上 的 永久 性 数据 。 


1. 数据 


为 了 了 解 世界 、 研 究 世界 和 交流 信息 ， 人 们 需要 描述 各 种 事物 。 用 自然 语言 描述 事 
物 虽 然 很 直接 ， 但 过 于 烦琐 ， 不 便于 计算 机 处 理 。 为 此 ， 需 要 抽取 出 感 兴趣 的 事物 特征 
或 者 属性 来 描述 事物 。 例 如 ， 可 以 用 如 下 信息 描述 一 位 客户 : (001， 张 三 ， 北 京 朝阳 区 
亚运 村 ，66000066，1001001)。 这 样 的 一 行 数据 ， 在 数据 库 领 域 称 为 一 条 记录 。 单 看 这 
一 行 数据 很 难 知道 其 确切 含义 ， 它 必须 在 一 定 的 数据 环境 中 才 有 意义 。 用 某 种 形式 来 说 
明 这 组 数据 ， 就 可 以 得 到 数据 的 确切 含义 :( 编 号， 姓名 ， 地 址 ， 电 话 ， 邮 编 )。 这 称 为 
数据 的 型 ， 上 述 的 客户 信息 称 为 数据 值 。“ 型 ”是 数据 的 描述 ， 指 明 事物 有 什么 属性 ， 并 
规定 取 值 类 别 和 范围 〈 类 型 ) 等 。“ 值 ”是 型 的 一 个 具体 赋值 。 


2. 数据 模型 


模型 是 表示 事物 本 质 的 方法 ， 是 对 事物 、 对 象 、 过 程 等 客观 现实 中 感 兴趣 内 容 的 模 
拟 和 抽象 ， 是 理解 系统 的 思维 工具 。 数 据 模型 也 是 一 种 模型 ， 是 对 现实 世界 数据 特征 的 
抽象 ， 用 于 描述 数据 、 组 织 数据 和 对 数据 进行 操作 。 

根据 模型 应 用 目的 ， 可 以 将 模型 分 为 两 大 类 。 一 类 是 面向 用 户 的 ， 称 为 概念 模型 ， 
也 称 为 信息 模型 ， 另 一 类 是 面向 计算 机 系统 的 逻辑 模型 和 物理 模型 。 

1) 概念 模型 

概念 模型 从 数据 的 应 用 角度 来 抽取 模型 并 按 用 户 的 观点 对 数据 和 信息 进行 建 模 。 这 
类 模型 主要 用 于 数据 库 设计 阶段 ， 它 与 具体 的 数据 库 管 理 系统 无 关 。 

常用 的 概念 模型 有 实体 -联系 (Entity-Relationship, E-R) 模型 、 语 义 对 象 模型 等 。 
E-R 模型 是 1976 年 由 PP S. Chen 提出 的 ， 它 拥有 大 量 的 支持 者 ， 是 目前 描述 信息 结构 
最 常用 的 方法 。E-R 模型 中 的 关键 信息 包括 实体 、 属 性 和 联系 。 

实体 是 具有 公共 性 质 的 可 相互 区 别 的 现实 世界 对 象 的 集合 。 实 体 可 以 是 具体 的 事 
物 ， 也 可 以 是 抽象 的 概念 或 联系 。 例 如 ， 商 品 、 客 户 、 销 售 员 都 是 具体 的 实体 ， 而 销售 
员 销售 商品 ， 客 户 购买 商品 也 可 以 看 成 实体 ， 但 它们 是 抽象 的 实体 。 

在 E-R 图 中 用 和 拢 形 框 表示 实体 ， 把 实体 名 写 在 框 内 。 例 如 ， 图 2.1 (а) 中 “部 门 经 


理 ” 和 “部 门 ”就 是 具体 的 实体 。 实 体 中 的 每 个 具体 的 记录 值 ， 比 如 员工 实体 中 的 每 个 
具体 的 销售 员 ， 称 为 实体 的 一 个 实例 。 

每 个 实体 都 具有 一 定 的 特征 或 性 质 ， 根 据 实 体 的 特征 来 区 分 一 个 个 实例 。 属 性 就 是 
描述 实体 或 者 联系 的 数据 项 ， 是 一 个 实体 的 所 有 实例 都 具有 的 共同 性 质 。 例 如 ， 商 品 的 
编号 、 名 称 、 型 号 、 价 格 等 都 是 商品 实体 的 特征 ， 这 些 特 征 构成 了 商品 实体 的 属性 。 属 
性 在 E-R 图 中 用 椭圆 表示 ， 并 用 连 线 将 属性 与 实体 联系 起 来 ， 如 图 2.1 (b) Вт 
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现实 世界 中 ， 事 物 内 部 以 及 事物 之 间 是 有 联系 的 ， 这 些 联 系 在 信息 世界 反映 为 实体 
内 部 的 联系 和 实体 之 间 的 联系 。 实 体内 部 的 联系 通常 指 实体 的 各 属性 之 间 的 联系 ; 实体 
之 间 的 联系 通常 指 不 同 实体 之 间 的 联系 。 例 如 ， 在 职工 实体 中 ， 假 设 有 职工 号 、 部 门 经 
理 号 等 属性 ， 其 中 ， 部 门 经 理 号 和 职工 号 采用 的 是 一 套 编码 方式 。 部 门 经 理 也 是 职工 ， 
因此 部 门 经 理 号 和 职工 号 之 间 有 一 种 关联 约束 关系 , 即 部 门 经 理 号 的 取 值 受 限于 职工 号 ， 
这 就 是 实体 内 部 的 联系 。 销 售 员 和 商品 之 间 也 有 联系 ， 这 种 联系 就 是 实体 之 间 的 联系 。 

两 实体 之 间 的 联系 可 以 分 为 以 下 三 类 。 

一 对 一 联系 1 : 1): 如 果实 体 A 中 的 每 个 实例 在 实体 B 中 至 多 有 一 个 (也 可 以 没 
H) 实例 与 之 关联 ， 反 之 亦 然 ， 则 称 实体 A 与 实体 B 具有 一 对 一 联系 ， 记 为 1 : 1。 例 
如 ， 部 门 和 经 理 〈 假 设 一 个 部 门 只 有 一 个 经 理 ) 就 是 一 对 一 联系 。 

HERR A:n): 如 果实 体 A 中 的 每 个 实例 在 实体 B PA 个 实例 (по) 与 
之 关联 ， 而 实体 B 中 的 每 个 实例 在 实体 A 中 最 多 有 一 个 实例 与 之 关联 ， 则 称 实体 A 与 
实体 B 具有 一 对 多 联系 ， 记 为 1 : n 假设 一 个 部 门 有 若干 个 职工 ， 而 一 个 职工 只 在 一 个 
部 门 工作 ， 则 部 门 和 职工 之 间 就 是 一 对 多 联系 。 

多 对 多 联系 〈m : n): 如 果实 体 A 中 的 每 个 实例 在 实体 B 中 有 n 个 实例 (по) 与 
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之 关联 ， 而 实体 B 中 的 每 个 实例 在 实体 A 中 也 有 m 个 实例 (т>0) 与 之 关联 ， 则 称 实 
ЖА 与 实体 B 具 有 多 对 多 联系 ， 记 为 n : т. 例如， 一 个 销售 员 可 以 销售 多 种 商品 ， 一 
种 商品 也 可 以 被 多 个 销售 员 销 售 ， 因 此 销售 员 与 商品 之 间 就 是 多 对 多 联系 。 

2) 逻辑 模型 

数据 库 的 逻辑 模型 有 : 层次 模型 、 网 状 模型 、 关 系 模型 、 对 象 -关系 模型 等 。 本 章 
重点 讨论 关系 模型 。 

关系 模型 是 目前 最 重要 的 一 种 数据 模型 ， 由 IBM 公司 的 研究 员 E. Е. Сода 在 1970 
年 首次 提出 ， 为 数据 库 技术 葛 定 了 理论 基础 。20 世纪 80 年 代 以 来 ， 计 算 机 厂商 新 推出 
的 数据 库 管 理 系统 几乎 都 支持 关系 模型 。 关 系 模型 源 于 数学 ， 它 用 二 维 表 来 组 织 数 据 ， 
而 这 个 二 维 表 在 关系 数据 库 中 就 称 为 “关系 ” 关系 数据 库 就 是 “关系 ”的 集合 。 

在 关系 系统 中 ， 表 是 逻辑 结构 而 不 是 物理 结构 。 实 际 上 ， 系 统 在 物理 层 可 以 使 用 任 
何 有 效 的 存储 结构 来 存储 数据 。 表 2.1 是 商品 信息 的 关系 模型 。 
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“商品 ”是 一 个 关系 ， 由 品名 、 价 格 、 产 地 、 生 产 商 这 些 相关 属性 描述 。 用 关系 表 
示 实 体 以 及 实体 之 间 联 系 的 模型 称 为 关系 模型 。 


e -2:42 一 三 级 模式 结构 体系 -， 

考察 数据 库 系 统 的 结构 可 以 有 不 同 的 层次 和 不 同 的 角度 。 从 数据 库 管理 系统 角度 
看 ， 数 据 库 系统 通常 采用 三 级 模式 结构 ， 这 是 数据 库 管理 系统 内 部 的 数据 结构 。 

在 数据 模型 中 有 “型 ” (Type) 和 “ 值 ” (Value) 的 概念 。 型 是 指 对 某 一 类 数据 的 
结构 和 属性 的 说 明 ， 值 是 型 的 一 个 具体 赋值 。 例 如 ， 客 户 记录 定义 为 《客户 号 ， 姓 名 
单位 ) 这 样 的 记录 型 ， 而 〈2007040612， 张 三 ， 北 京 科技 公司 ) 则 是 该 记录 型 的 一 个 记 
录 值 。 

模式 (Schema) 是 数据 库 中 全 体 数 据 的 逻辑 结构 和 特征 的 描述 , 它 仅 涉及 型 的 描述 ， 
不 涉及 具体 的 值 。 模 式 的 一 个 具体 值 称 为 模式 的 一 个 实例 (Instance)。 同 一 个 模式 可 以 
有 很 多 实例 。 模 式 是 相对 稳定 的 ， 而 实例 是 相对 变动 的 ， 因 此 数据 库 中 的 数据 是 在 不 断 
更 新 的 。 模 式 反映 的 是 数据 的 结构 及 其 联系 ， 而 实例 反映 的 是 数据 库 某 一 时 刻 的 状态 。 
虽然 实际 的 数据 库 管理 系统 产品 种 类 很 多 ， 它 们 支持 不 同 的 数据 模型 ， 使 用 不 同 的 数据 
库 语 言 ， 建 立 在 不 同 的 操作 系统 之 上 ， 数 据 的 存储 结构 也 各 不 相同 ， 但 它们 在 体系 结构 
上 通常 都 具有 相同 的 特征 ， 即 采用 三 级 模式 结构 。 

美国 国家 标准 委员 会 《ANSI) 所 属 标准 计划 和 要 求 委 员 会 在 1975 年 公布 了 一 个 关 
于 数据 库 标准 的 报告 ， 提 出 了 数据 库 的 三 级 模式 结构 ， 这 就 是 著名 的 SPACE 分 级 结构 。 


三 级 结构 对 数据 库 的 组 织 从 内 到 外 分 为 三 个 层次 ， 分 别 为 内 模式 、 概 念 模式 和 外 模式 ， 
如 图 2.2 所 示 。 
外 模式 1 外 模式 2… 外 模式 x 《单个 用 户 视图 


概念 模式 (公共 用 户 视图 》 


内 模式 (存储 视图 ) 
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1. 内 模式 


内 模式 又 称 存储 模式 ， 描 述 数据 在 存储 介质 上 的 组 织 存储 。 内 模式 是 系统 程序 员 用 
一 定 的 文件 形式 组 织 起 来 的 一 个 个 存储 文件 和 联系 手段 ， 实 现 数 据 存 取 。 一 个 数据 库 只 
有 一 个 内 模式 。 


2. 概念 模式 


概念 模式 简称 模式 ， 是 对 数据 库 的 整体 逻辑 结构 和 特征 的 描述 ， 也 是 所 有 用 户 的 公 
共 数 据 视图 。 模 式 是 数据 的 逻辑 结构 ， 一 个 数据 库 只 有 一 个 模式 。 模 式 不 涉及 数据 的 物 
理 存 储 细节 和 硬件 环境 ， 与 具体 的 应 用 程序 及 使 用 的 开发 工具 无 关 。 定 义 模式 时 不 仅 要 
定义 数据 的 逻辑 结构 ， 也 要 定义 数据 之 间 的 联系 ， 定 义 与 数据 有 关 的 安全 性 、 完 整 性 要 
求 等 。 

3. 外 模式 


外 模式 通常 是 模式 的 一 个 子 集 ， 故 又 称 外 模式 为 子 模式 。 外 模式 面向 用 户 ， 它 是 数 
据 库 用 户 能 够 看 到 和 使 用 的 局 部 数据 的 逻辑 结构 和 特征 的 描述 ， 与 应 用 有 关 的 数据 的 逻 
辑 表 示 。 一 个 数据 库 可 以 有 多 个 外 模式 ， 每 一 个 外 模式 都 是 为 了 不 同 的 应 用 建立 的 数据 
视图 。 外 模式 是 保证 数据 库 安 全 的 一 个 有 力 措施 ， 每 个 用 户 只 能 看 到 和 访问 到 所 对 应 的 
外 模式 中 的 数据 。 

综 上 所 述 ， 模 式 是 内 模式 的 逻辑 表示 ， 内 模式 是 模式 的 物理 实现 ， 外 模式 则 是 模式 
的 部 分 抽取 。 三 个 模式 反映 出 数据 库 的 三 种 不 同 观点 : 内 模式 表示 物理 级 数据 库 ， 体 现 
了 对 数据 库 的 存储 观 ， 模式 表示 了 概念 级 的 数据 库 ， 体 现 了 对 数据 库 的 总 体 观 ， 外 模式 
表示 了 用 户 级 数据 库 ， 体 现 了 对 数据 库 的 用 户 观 。 总 体 观 和 存储 观 只 有 一 个 ， 而 用 户 观 
可 能 有 多 个 。 
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数据 库 系 统 的 三 级 模式 是 对 数据 的 三 级 抽象 ， 数 据 的 具体 组 织 由 数据 库 管 理 系统 负 
责 , 使 用 户 能 够 逻辑 地 处 理 数据 , 而 不 必 关 心 数据 在 计算 机 内 部 的 具体 表示 与 存储 方式 。 
为 了 在 内 部 实现 这 三 个 抽象 层次 的 转换 ， 数 据 库 管理 系统 在 这 三 级 模式 中 提供 了 两 级 映 
像 : 外 模式 /模式 映像 和 模式 /内 模式 映像 。 


1. 外 模式 /模式 映像 


外 模式 /模式 映像 就 是 存在 外 模式 与 模式 之 间 的 某 种 对 应 关系 , 这 些 映 像 定义 通常 包 
含 在 外 模式 的 描述 中 。 
当 模 式 改变 时 ， 例 如 ， 增 加 了 一 个 新 表 或 对 表 进 行 了 修改 ， 数 据 库 管理 员 对 各 个 外 
模式 /模式 的 映像 做 相应 的 修改 ， 而 使 外 模式 保持 不 变 ， 这 样 应 用 程序 就 不 用 修改 。 因 为 
应 用 程序 是 基于 外 模式 的 处 理 ， 所 以 保证 了 数据 与 程序 的 逻辑 独立 性 ， 简 称 数据 的 逻辑 
独立 性 。 


2. 模式 /内 模式 映像 
模式 /内 模式 映像 是 数据 库 全 局 逻辑 结构 与 存储 结构 之 间 的 对 应 关系 。 当 数据 库 的 内 
模式 发 生 改 变 时 ， 例 如 ， 存 储 数据 库 的 硬件 设备 或 存储 方式 发 生 改 变 ， 由 于 存在 模式 / 


内 模式 映像 ， 使 得 数据 的 逻辑 结构 保持 不 变 ， 即 模式 不 变 。 保 证 了 数据 与 应 用 程序 的 物 
理 独立 性 ， 简 称 数据 的 物理 独立 性 。 


e 213 数据 库 管理 系统 - 


数据 库 管 理 系统 (DataBase Management System, DBMS) 是 处 理 数 据 库 访问 的 系统 
软件 ， 主 要 有 以 下 功能 。 


1. 数据 定义 


数据 库 管理 系统 能 够 接受 数据 库 定义 的 源 形式 ， 并 把 它们 转换 成 相应 的 目标 形式 ， 
支持 各 种 数据 定义 语言 (DDL) 的 处 理 器 或 编译 器 。 


2. 数据 组 织 、 存 储 和 管理 


数据 库 管 理 系统 要 分 类 组 织 、 存 储 和 管理 各 种 数据 ， 包 括 数 据 字 典 、 用 户 数据 、 数 
据 的 存 取 路 径 等 。 要 确定 以 何 种 文件 结构 和 存 取 方式 在 存储 级 上 组 织 这 些 数据 ， 如 何 体 
现 数 据 之 间 的 联系 等 。 


3. 数据 操纵 


数据 库 管 理 系统 提供 数据 操纵 语言 (Data Manipulation Language, MDL), HT LA 
使 用 它 操纵 数据 ， 实 现 对 数据 库 的 插入 、 删 除 、 修 改 、 查 询 等 操作 。 


4. 数据 库 的 事务 管理 和 运行 管理 
数据 库 在 建立 、 运 行 和 维护 时 由 数据 库 管理 系统 统一 管理 和 控制 ， 以 保证 事务 的 


正确 运行 ， 保 证 数据 的 安全 性 、 完 整 性 、 多 用 户 对 数据 的 并 发 使 用 及 发 生 故 障 后 的 系 
统 恢复 。 


5. 数据 库 的 建立 和 维护 
数据 库 的 建立 和 维护 功能 包括 数据 库 初 始 数据 的 输入 、 转 换 、 恢 复 功能 ， 数 据 库 的 
重组 织 功 能 、 性 能 监视 、 分 析 等 功能 。 


22 关系 数据 库 


关系 数据 库 是 当前 信息 管理 系统 中 最 常用 的 数据 库 ， 关 系数 据 库 采 用 关系 模式 ， 应 
用 关系 代数 的 方法 来 处 理 数据 库 中 的 数据 。 
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1. 关系 的 数学 定义 Г 
ом Š 
域 (Domain): 一 组 具有 相同 数据 类 型 的 值 集合 。 例 如 ，{ 自 然 数 }，{ 男 ， 女 }，{0， 
1} 等 都 可 以 是 域 。 
Ж: 一 个 域 允许 的 不 同 取 值 个 数 称 为 这 个 域 的 基数 。 
[01 2.1] 


D = { 张 三 ， 李 四 ， 王 五 }， 表 示 姓 名 的 集合 ， 基 数 是 3。 
D= {销售 部 ， 人 事 部 }， 表 示 部 门 的 集合 ， 基 数 是 2。 


2) ВРЕЛА 
Е Do Do s Про, D, (可 以 有 相同 的 域 )， 则 笛 卡 儿 积 定义 为 : 
юр, DrD, = { (d dx =s do "S 4) 1dED 1=1, 2, =, n) 


例 2.1 中 的 Di 与 D; 的 笛 卡 儿 积 为 : 

D:D: = { ( 张 三 ， 销 售 部 )，( 张 三 ， 人 事 部 )，( 李 四 ， 销 售 部 ),，( 李 四 ， 人 事 部 )， 
(〈 王 五 ， 销 售 部 )，( 王 五 ， 人 事 部 ) } 

Joh, В Са, Ф, + di + Ф) 叫 作 元 组 ， 元 组 中 的 每 一 个 值 4; 叫 作 分 量 ， 
qi 必须 是 D; 中 的 一 个 值 。 

显然 ， 笛 卡 儿 积 的 基数 就 是 构成 该 积 所 有 域 的 基数 累 乘积 , Ж Di (1=1, 2, +, n) 
HAREE, HEX m (1=1, 2, +, n), W пр» Dre D, 稍 卡 儿 积 的 基数 M 为 : 


М = TI m, 
i=l 


例 2.1 中 的 D, 与 D, 的 笛 卡 儿 积 的 基数 是 М = mim; = 3x2 = 6, МАН ЕЛЕН 6 
个 元 组 ， 它 可 组 成 一 张 二 维 表 ， 如 表 2.2 所 示 。 
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с R22 D1 与 D2z 的 笛 卡 儿 积 


3) 关系 

KA (Relation): # ЕЛЯ Di D,…D;…D, 的 子 集 RR PEER Dio Do +, D, ЕЙ] 
关系 ， 记 作 : 

R (D: Во. sey Вие Во) 

其 中 ，R 为 关系 名 ，n 为 关系 的 度 或 目 (Degree)，D; 是 域 组 中 的 第 i 个 域名 。 
当 n=1 时 ， 称 该 关系 为 单元 关系 ; 
当 n=2 时 ， 称 该 关系 为 二 元 关系 ; 

以 此 类 推 ， 若 关系 中 有 п 个 域 ， 称 该 关系 为 n 元 关系 。 一 般 来 说 ， 一 个 取 自 笛 卡 
儿 积 的 子 集 才 有 意义 如 表 2.3 所 示 。 


ss R23 .D1 与 Dz 的 笛 卡 儿 积 子 集 


Жез АЕ РА УН ИБИ ХЕ 


程 


关系 可 以 分 为 以 下 三 种 类 型 。 

О 基本 关系 (又 称 基本 表 ): 是 实际 存在 的 表 ， 它 是 实际 存储 数据 的 逻辑 表示 。 

О 查询 表 : 是 对 基本 表 进 行 查询 后 得 到 的 结果 表 。 

О 视图 表 : 是 由 基本 表 或 其 他 视图 导出 的 表 ， 是 一 个 虚 表 ， 不 对 应 实际 存储 的 
数据 。 


2. 关系 的 性 质 


(1) 列 是 同 质 的 。 即 每 一 列 中 的 分 量 是 同一 类 型 的 数据 ， 来 自 同一 个 域 。 表 2.4 中 
姓名 来 自 姓 名 域 ， 性 别 来 自 性 别 域 ， 部 门 都 是 部 门 域内 的 数据 。 
2 表 2.4 员工 信息 表 


1980-8-7 
1975-6-8 


100021 


1981-11-25 
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(2) 关系 中 行 的 顺序 、 列 的 顺序 可 以 任意 互 换 ， 不 会 改变 关系 的 意义 。 

例如 ， 表 2.4 中 ， 第 一 行 与 第 三 行 交 换 位 置 不 会 影响 关系 的 意义 。 

(3) 关系 中 的 任意 两 个 元 组 不 能 相同 。 

如 员工 信息 表 中 ， 不 允许 出 现 元 组 相同 的 情况 。 表 2.5 是 不 允许 的 。 
25 #25 .错误 的 信息 表 


1980-8-7 


1975-6-8 


(4) 关系 中 的 元 组 分 量具 有 原子 性 。 
即 每 一 个 分 量 都 必须 是 不 可 分 的 数据 项 。 


3. 关系 的 属性 和 码 


(1) JAHE (Attribute). 

表 中 的 一 列 即 为 一 个 属性 ， 为 每 一 个 属性 赋 一 个 名 称 即 属性 名 。 例 如 ， 表 24 中 有 
5 列 ， 即 对 应 5 个 属性 ， 分 别 是 ， 员工 编号 、 姓 名 、 性 别 、 部 门 、 生 日 。 

(2) 候选 码 (Candidate Key). 

若 关系 中 的 某 一 属性 组 的 值 能 唯一 地 标识 一 个 元 组 ， 则 称 该 属性 组 为 候选 码 〈 也 称 
候选 键 )。 

(3) 主 码 (Primary Key)。 

若 一 个 关系 中 有 多 个 候选 码 ， 则 选 定 一 个 为 主 码 〈 也 称 主键 )。 


关系 模型 源 于 数学 , 用 二 维 表 来 组 织 数据 。 这 个 二 维 表 在 关系 数据 库 中 称 为 “关系 ”。 
关系 数据 库 就 是 “关系 ”的 集合 。 在 关系 系统 中 ， 用 户 感觉 数据 就 是 一 张 张 表 。 表 是 逻 
辑 结构 而 不 是 物理 结构 ， 实 际 上 在 物理 层 可 以 使 用 任何 有 效 的 存储 结构 来 存储 数据 。 比 
如 ， 有 序 文件 、 索 引 、 哈 希 表 、 指 针 等 。 因 此 ， 表 是 对 物理 存储 数据 的 一 种 抽象 表示 ， 
对 很 多 存储 细节 的 抽象 ， 如 存储 记录 的 位 置 、 记 录 的 顺序 、 数 据 值 的 表示 以 及 记录 的 访 
问 结构 。 用 关系 表示 实体 以 及 实体 之 间 联 系 的 模型 称 为 关系 数据 模型 。 关 系 模 型 由 关系 
数据 结构 、 关 系 操作 集合 和 关系 完整 性 约束 三 部 分 组 成 。 


1. 关系 模型 的 数据 结构 
关系 模型 的 数据 结构 非常 简单 ， 即 为 关系 。 关 系 ， 就 是 二 维 表 ， 它 满足 三 个 条 件 : 
关系 表 中 的 每 一 列 都 是 不 可 再 分 的 基本 属性 ， 表 中 各 属性 不 能 重 名 ; 表 中 的 行 、 列 次 序 


并 不 重要 ， 即 可 以 交换 行 、 列 的 次 序 。 例 如 ， 表 2.5 中 “部 门 ” 和 “生日 ”次 序 的 变换 
不 影响 表达 的 语义 。 
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2 关系 操作 


关系 操作 的 特点 是 集合 操作 ， 即 操作 的 对 象 和 结果 都 是 集合 。 关 系 模型 的 数据 操作 
主要 包括 查询 、 插 入 、 删 除 和 修改 数据 。 早 期 的 关系 操作 能 力 通 常用 代数 方式 或 逻辑 方 
式 来 表示 ， 分 别称 为 关系 代数 和 关系 演算 。 关 系 代数 和 关系 演算 均 是 抽象 的 查询 语言 ， 
另外 还 有 一 种 介 于 关系 代数 和 关系 演算 之 间 的 SQL (Structured Query Language)。SQL 
不 仅 具 有 丰富 的 查询 功能 ， 还 具有 数据 定义 和 数据 控制 的 功能 ， 充 分 体现 了 关系 数据 语 
言 的 特点 和 优点 ， 已 经 成 为 关系 数据 库 的 标准 语言 。 


3. 关系 的 完整 性 


关系 模型 的 完整 性 规则 是 对 关系 的 某 种 约束 条 件 。 关 系 模型 中 可 以 有 三 类 完整 性 约 
R: 实体 完整 性 、 参 照 完 整 性 和 用 户 定义 的 完整 性 。 其 中 ， 实 体 完整 性 和 参照 完整 性 是 
关系 模型 必须 满足 的 完整 性 约束 条 件 ， 称 为 关系 的 两 个 不 变性 。 

1) 实体 完整 性 

关系 模型 使 用 主 码 作为 元 组 的 唯一 标识 ， 主 码 所 包含 的 属性 称 为 关系 的 主 属性 。 实 
体 完 整 性 指 关 系数 据 库 中 所 有 表 都 必须 有 主 码 ， 并 且 主 属性 不 能 取 空 值 (NULL). 

例如 ， 商 品 信息 表 中 “商品 编号 ”为 主 码 ， 则 “商品 编号 ”不 能 取 空 值 。 如 果 主 码 
由 多 个 主 属性 构成 ， 则 每 个 主 属性 均 不 可 为 空 。 例 如 ， 订 单 关系 中 的 订单 (客户 号 ， 商 
品 号， 时 间 ， 数 量 ),“ 客 户 号 ”和 “商品 号 ”为 订单 表 的 主 码 ， 则 “客户 号 ”和 “商品 
号 ”两 个 属性 都 不 能 取 空 值 。 

实体 完整 性 规则 是 针对 基本 关系 而 言 的 。 关 系 模型 中 的 每 一 行 记 录 都 对 应 客观 存在 
的 一 个 实例 或 一 个 事实 。 现 实 世 界 中 的 实例 是 可 以 区 分 的 ， 其 中 的 某 些 属 性 唯一 地 标识 
了 该 实例 ， 对 应 到 关系 模型 中 即 主 码 。 主 码 为 空 ， 意 味 着 该 实体 不 可 区 分 ， 是 模糊 的 实 
体 ， 这 在 数据 库 中 是 不 允许 的 。 

2) 参照 完整 性 

参照 完整 性 有 时 也 称 为 引用 完整 性 。 现 实 世界 中 的 实体 之 间 往 往 存 在 着 某 种 联系 ， 
在 关系 模型 中 ， 实 体 以 及 实体 之 间 的 联系 都 是 用 关系 来 表示 的 ， 这 样 就 自然 产生 了 关系 
与 关系 之 间 的 引用 关系 。 参 照 完 整 性 就 是 描述 实体 之 间 的 引用 的 。 

3) 用 户 定义 的 完整 性 

用 户 定义 的 完整 性 也 称 为 域 完整 性 或 语义 完整 性 。 任 何 关 系数 据 库 系统 都 应 该 支 
持 实体 完整 性 和 参照 完整 性 。 除 此 之 外 ， 不 同 的 数据 库 应 用 系统 根据 应 用 环境 不 同 
往往 还 需要 一 些 特殊 的 约束 条 件 ， 用 户 定义 的 完整 性 是 针对 某 一 具体 应 用 领域 定义 的 
数据 库 约 束 条 件 ， 例 如 ， 要 求 表 中 某 属 性 的 数据 具有 正确 的 数据 类 型 、 格 式 和 有 效 的 
数据 范围 等 。 

数据 库 设 计时 ， 需 将 E-R 图 转换 为 关系 模式 。 前 面 分 析 过 的 销售 员 销 售 商品 E-R 图 
如 图 2.3 所 示 。 


姓名 生日 


ГҮ 图 2.3 销售 员 销售 商品 E-R 


将 其 转换 为 关系 模式 如 下 。 

销售 员 〔〈 销 售 员 编号 ， 姓 名 ， 性 别 ， 生 日 )， 主 码 为 销售 员 编 号 。 

商品 (商品 编号 ， 名 称 ， 型 号 ， 价 格 )， 主 码 为 商品 编号 。 

销售 员 - 商 品 〈 销 售 员 编号 ， 商 品 编号 ， 时 间 )， 主 码 为 销售 员 编号 和 商品 编号 。 
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提出 规范 化 问题 的 背景 是 需要 处 理 数 据 元 余 以 及 由 此 带 来 的 操作 异常 现象 。 请 看 如 
表 2.6 所 示 的 客户 购买 商品 表 ， 其 中 ， 客 户 编号 和 商品 编号 为 主 码 。 观 察 上 述 表格 ， 可 
以 发 现 该 关系 模式 中 存在 着 数据 元 余 ， 主 要 表现 在 客户 姓名 和 品名 重复 多 次 。 
32 R26 客户 购买 商品 表 
商品 编号 品名 单价 数量 


| «= | кою | юни | зоо | 1 | 


也 存在 更 新 异常 ， 主 要 表现 在 以 下 几 方 面 。 

о ”修改 异常 如果 修 改 一 种 商品 的 名 称 ， 或 者 修改 一 位 顾客 的 信息 ， 则 在 客户 购买 
商品 表 中 要 修改 多 个 元 组 . 如 果 部 分 修改 , 部 分 不 修改 , 则 会 出 现 数据 的 不 一 致 。 

О WAAR: 实体 完整 性 的 约束 要 求 主 属性 不 能 取 空 值 。 如 果 某 种 商品 还 没有 被 
购买 ， 则 此 商品 的 编号 和 名 称 就 不 能 插入 表 中 。 如 果 顾 客 没有 购买 商品 ， 也 无 
法 插入 顾客 信息 。 

О о 删除 异常 如 果 要 删除 所 有 顾客 的 信息 ， 则 商品 的 信息 也 将 丢失 。 

数据 元 余 不 仅 会 浪费 存储 空间 ， 而 且 可 能 造成 数据 的 不 一 致 。 插 入 异常 是 在 不 规范 


的 数据 表 中 插入 数据 时 由 于 实体 完整 性 约束 要 求 〈 主 码 不 能 为 空 ) 的 限制 ， 而 使 有 用 数 
据 无 法 插入 。 删 除 异 常 是 ， 当 不 规范 的 数据 表 中 某 条 需要 删除 的 元 组 中 包含 一 部 分 有 用 
数据 时 , 就 会 出 现 删 除 困难 。 解决 上 述 问题 的 方法 是 将 不 规范 的 关系 分 解 成 为 多 个 关系 ， 
使 得 每 个 关系 中 只 包含 一 个 实体 的 数据 ， 图 2.4 是 规范 化 处 理 后 的 关系 模式 。 


(a) 客户 信息 (b) 商品 信息 (с) 客户 购买 商品 
20 图 2.4 ,规范 化 处 理 后 的 关系 模式 


分 解 后 的 关系 模式 可 以 解决 数据 元 余 与 更 新 异常 的 问题 。 但 是 ， 改 进 后 的 关系 模式 
也 存在 另 一 个 问题 ， 当 查询 客户 购买 商品 信息 时 需要 将 两 个 关系 连接 后 方 能 查询 ， 而 关 
系 连接 的 代价 也 是 很 大 的 。 那么， 什么 样 的 关系 需要 分 解 ? 分 解 关系 模式 的 理论 依据 又 
是 什么 ? 分 解 完 后 能 否 完全 消除 上 述 三 个 问题 ? 回答 这 些 问 题 需要 理论 指导 。 


在 关系 客户 (客户 编号 ， 姓 名 ， 住 址 ， 联 系 方式 ) 中 只 要 给 出 客户 编号 就 可 以 唯一 
地 确定 客户 姓名 、 住 址 、 联 系 方式 等 信息 。 客 户 编号 是 决定 因素 ， 客 户 编号 决定 住址 ， 
住址 函数 依赖 于 客户 编号 。 
因此 ， 函 数 依赖 是 属性 之 间 的 一 种 联系 。 在 关系 尺 中 , X. 了 为 及 的 两 个 属性 或 属性 组 ， 
如 果 对 于 R 的 所 有 关系 都 存在 : 对 于 蕊 的 每 一 个 具体 值 ， 工 都 只 有 一 个 具体 值 与 之 对 应 ， 
则 称 属 性 工 函 数 依赖 于 属性 蕊 或 者 说 ， 属 性 蕊 函数 决定 属性 Y, ЗЕ ХУ. Hp, Xl 
作 决 定 因素 ， 工 叫 作 被 决定 因素 。 如 果 属 性 区 函数 不 能 决定 属性 Y, WEX > Y. 

上 述 定义 可 简 言 之 : 如 果 属 性 蕊 的 值 决定 属性 工 的 值 ， 那 么 属性 了 函数 依赖 于 属性 
X. ВА: RANE X E, AIR УНИН, WEA X AE У. 

前 面 学 习 的 属性 间 的 三 种 关系 : 一 对 一 关系 (1 : 1)、 一 对 多 关系 а: ZHL 
关系 (Ст: n)， 并 不 是 每 种 关系 中 都 存在 着 函数 依赖 。 

Q) WRX, 了 间 是 1 : 1 关系 ， 则 存在 函数 依赖 : XX 一 一 了 。 

(2) WRX УЙ] 1: п, 则 存在 函数 依赖 : X—Y R YOX (多 方 为 决定 因素 )。 

(3) ШЖ X. 了 间 是 m : n 关系 ， 则 不 存在 函数 依赖 。 

注意 ， 属 性 间 的 函数 依赖 不 是 指 关 系 的 某 个 或 某 些 关 系 子 集 满足 上 述 限定 条 件 ， 而 
是 指 关 系 的 一 切 关系 子 集 都 要 满足 定义 中 的 限定 。 只 要 有 一 个 具体 的 关系 r (是 关系 R 
的 一 个 关系 子 集 ) 不 满足 定义 中 的 条 件 ， 就 破坏 了 函数 依赖 ， 函 数 依赖 不 成 立 。 

[ 例 2.2] 商品 购买 (客户 编号 ， 客 户 姓名 ， 商 品 编号 ， 品 名 ， 单 价 ， 数 量 ， 总 价 ) 

此 关系 的 决定 因素 为 (客户 编号 商品 编号 ),“ 单 价 ” 函 数 依赖 于 〈 客 户 编号 商品 
编号 )。 如 果 进 一 步 分 析 会 发 现 决定 “单价 ”的 只 有 “商品 编号 ”， 与 “客户 编号 ”无 关 。 


这 种 依赖 关系 称 为 部 分 依赖 。 部 分 依赖 的 定义 是 : 

如 果 厂 > 了 Y， 并 且 对 于 甘 的 任何 一 个 真子 集 X' WEX > Y, ШИ Y X] X И 
数 依赖 。 

车 卫 >Y， 但 了 不 完全 函数 依赖 于 对， 则 称 了 对 于 部 分 函数 依赖 。 

[ 例 2.3] 员工 (员工 编号 ,， 员工 姓名 ， 所 在 部 门 ， 部 门 经 理 )， 主 码 为 员工 编号 

假设 一 个 部 门 只 有 一 个 部 门 经 理 。 整 个 关系 模式 中 没有 部 分 依赖 ， 但 是 可 以 发 现 员 
工 编 号 一 所 在 部 门 ， 所 在 部 门 一 部 门 经 理 ， 因 此 员工 编号 一 部 门 经 理 。 一 般 把 这 种 依赖 

至 此 ， 讨 论 了 关系 属性 间 的 三 种 联系 : 完全 依赖 、 部 分 依赖 、 传 递 依赖 。 关 系 属性 
间 的 依赖 关系 与 关系 的 更 新 异常 有 着 密切 的 联系 。 


设 有 关系 模式 R (U, F), R 是 关系 名 ，U 是 一 组 属性 ，F 是 属性 组 UV 上 的 一 组 数 
据 依 赖 。KK 是 关系 模式 R CU, F) 中 的 属性 或 属性 组 ,天 ' 是 天 的 任 一 子 集 。 若 K—U, 
而 不 存在 天 ' — U, N KA R 的 候选 码 (Candidate Key). 

[ 例 2.4] 学 生 (学 号 , 姓名 , 年龄, 性别) 

这 个 关系 中 若 每 个 学 生 不 允许 重 名 ， 学 号 一 年 龄 ， 学 号 一 性 别 ， 学 号 一 一 姓名 ， 姓 
名 一 年 龄 ， 姓 名 一 性 别 。 故 学 号 、 姓 名 是 两 个 候选 码 。 

[ 例 2.5] 学 生 选 课 (学 号 , 课程 号 , 成 绩 ) 

(学 号 ,课程 号 ) 是 一 个 候选 码 。 

若 候选 码 多 于 一 个 ， 则 选 其 中 的 一 个 为 主 码 (Primary Key); 包含 在 任 一 候选 码 中 
的 属性 ， 叫 作 主 属性 〈Primary Attribute); 不 包含 在 任何 码 中 的 属性 称 为 非 主 属性 
(Nonprime Attribute) 或 非 码 属性 (Nonkey Attribute )。 

例 2.4 中 ， 选 定 学 号 为 主 码 ， 学 号 、 姓 名 是 主 属性 ， 年 龄 、 性 别 为 非 主 属性 。 

关系 模式 中 ， 最 简单 的 情况 是 单个 属性 是 码 ， 称 为 单 码 (Single Key); 最 极端 的 情 
况 是 整个 属性 组 是 码 ， 称 为 全 码 (All-Key)。 

[ 例 2.6] 销售 (销售 员 ， 商 品名 ， 客 户 ) 

假设 销售 员 可 以 销售 多 件 商 品 给 多 个 客户 ， 某 件 商品 可 以 被 多 个 销售 员 销 售 ， 每 个 
客户 也 可 以 从 不 同 的 销售 员 购 买 不 同 的 商品 。 因 此 ， 这 个 关系 模式 的 码 为 (销售 员 ， 商 
品名 ， 客 户 )， 即 全 码 。 

外 码 : 设 有 两 个 关系 尺 和 8$, XÆ R 的 属性 或 属性 组 ， ЭЕН XPE R КИЦ, 18 X 
是 5S 的 码 (或 与 5 的 码 意 义 相同 )， 则 称 卫 是 RR 的 外 部 码 (Foreign Key)， 简 称 外 码 
或 外 键 。 

[ 例 2.7] 职工 (职工 号 ， 姓 名 ， 性 别 ， 职 称 ， 部 门 号 ) 

部 门 (部 门 号 ， 部 门 名 ， 电 话 ， 负 责 人 ) 

其 中 ， 职 工 关系 中 的 “部 门 号 ”就 是 职工 关系 的 一 个 外 码 。 

在 此 需要 注意 , 在 定义 中 说 对 不 是 R 的 码 , 并 不 是 说 对 不 是 的 主 属性 。 了 不 是 码 ， 
但 可 以 是 码 的 组 成 属性 ， 或 者 是 任 一 候选 码 中 的 一 个 主 属性 。 
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[012.8] 学 生 (学 号 ， 姓 名， 性 别 ， 年 龄 ，… ) 
课程 (课程 号 ,课程 名 ， 任 课 老 师 ，… ) 
选课 (学 号 ， 课 程 号 ， 成 绩 ) 
(学 号 ， 课 程 号 ) 是 选课 关系 的 主 码 。 学 号 、 课 程 号 是 选课 关系 的 主 属性 (但 单独 
不 是 码 ), 同时 又 分 别 是 学 生 关 系 和 课程 关系 的 主 码 , 所 以 学 号 和 课程 号 是 选课 关系 的 两 
个 外 码 。 
关系 间 的 联系 ， 可 以 通过 主 码 和 外 码 的 取 值 来 建立 。 所 以 ， 主 码 和 外 码 提供 了 表示 
关系 间 联 系 的 途径 。 


设计 不 规范 的 关系 模式 有 可 能 产生 数据 元 余 与 更 新 异常 ， 那 么 什么 样 的 关系 模式 可 
以 避免 这 些 问题 ? 解决 这 个 问题 需要 关系 规范 化 理论 。 

关系 数据 库 中 的 关系 要 满足 一 定 的 要 求 。 满 足 最 低 要 求 的 叫 第 1 范式 ,简称 1NF(First 
Normal Form)。 在 第 1 范式 中 进一步 满足 一 些 要 求 的 关系 属于 第 2 范式 ， 简 称 2NF， 以 
此 类 推 ， 还 有 3NF, BCNF, 4NF, 5NF. 

所 谓 “ 第 几 范 式 ” 是 表示 关系 模式 满足 的 条 件 ， 所 以 经 常 称 某 一 关系 模式 为 第 几 范 
式 的 关系 模式 。 也 可 以 把 这 个 概念 理解 为 符合 某 种 条 件 的 关系 模式 的 集合 ， 因 此 R 为 第 
几 范 式 的 关系 模式 也 可 以 写 为 RExNF。 

对 关系 模式 的 属性 间 的 函数 依赖 加 以 不 同 的 限制 就 形成 了 不 同 的 范式 。 这 些 范式 是 
递 进 的 ， 即 如 果 一 张 表 是 INF 的 ， 它 比 不 是 INF 的 要 好 ， 同样，2NF 的 关系 要 比 INF 
的 好 …… 各 种 范式 之 间 的 联系 为 : 5МЕ С 4МЕ CBCFN C3NFC2NFC 1NF。 一 个 低 一 级 
范式 的 关系 模式 ， 通 过 模式 分 解 可 以 转换 为 若干 个 高 一 级 范式 的 关系 模式 的 集合 ， 这 种 
过 程 叫 作 规范 化 。 


1. 第 1 范式 〈1NF) 


ЖХ: 如 果 一 个 关系 模式 RR 的 所 有 属性 都 是 不 可 分 的 基本 数据 项 ， 则 RE 1NF。 

INF 是 对 关系 模式 的 最 起 码 的 要 求 ,不 满足 INF 的 数据 库 模式 不 能 称 为 关系 数据 库 。 
表 2.7 所 示 示 例 不 是 第 1 范式 ， 因 为 这 张 表 中 “客户 数目 ”不 是 基本 数据 项 ， 它 是 由 两 
个 基本 数据 项 组 成 的 一 个 复合 数据 项 。 转 换 为 第 1 范式 的 方法 为 将 不 是 基本 数据 项 的 内 
容 分 解 为 若干 不 可 再 分 的 基本 数据 项 ， 表 2.8 所 示 为 符合 第 1 范式 要 求 的 关系 。 
217 R27 _ 非 第 1 范式 的 表 


部 门 名 称 


2: R28 第 1 范式 的 表 
部 门 名 称 


关系 (客户 编号 ， 客 户 姓名 ,商品 编号 ， 品 名 ， 单价， 数量 ， 总 价 ) 符合 第 1 范式 。 
但 是 ， 如 果 一 件 商品 被 多 名 顾客 购买 ， 则 商品 信息 要 重复 多 次 。 可 见 ， 满 足 第 1 范式 的 
关系 依然 可 能 会 存在 数据 元 余 。 如 果 一 件 商品 还 没有 被 顾客 购买 ， 则 此 种 商品 的 信息 就 
无 法 插入 ， 说 明 也 可 能 存在 插入 异常 。 同 理 可 以 发 现存 在 删除 和 修改 异常 。 


2. 第 2 范式 (2NF) 


ЖХ: 若 关 系 模式 RE INF， 并 且 每 一 个 非 主 属 性 都 完全 函数 依赖 于 尺 的 主 码 ， 则 
RE2NF.。 若 RE2NF， 则 RE INF. 

[ 例 2.9] 客户 购买 商品 (客户 编号 ， 客 户 姓 名 ， 商 品 编号 ， 品 名 ， 单 价 ， 数 量 ， 总 价 ) 

客户 编号 和 商品 编号 为 主 码 ， 用 下 画 线 表 示 〈 关 系 中 出 现下 画 线 的 属性 均 表 示 主 
码 )。 此 例 中 存在 部 分 依赖 : 客户 姓名 部 分 依赖 于 客户 编号 ，( 品 名 ， 单 价 ) 部 分 依赖 于 
商品 编号 ， 不 满足 每 一 个 非 主 属性 都 完全 函数 依赖 于 码 的 规定 ， 因 此 它 不 是 2NF 的 。 

将 不 是 2NF 的 关系 改造 为 符合 2NF, 可 以 采用 模式 分 解 的 方法 。 将 上 式 分 解 为 以 下 
三 个 关系 。 

客户 (客户 编号 ， 客户 姓 名 ) 

商品 (商品 编号 ， 品名， 单价 ) 

客户 购买 (客户 编号 ， 商 品 编号 ， 数 量 ， 总 价 ) 

分 解 后 ， 每 个 关系 中 的 属性 都 是 完全 依赖 于 码 ， 因 此 都 是 2NF 的 。 但 是 ， 符 合 第 2 
范式 的 关系 模式 仍 可 能 存在 数据 元 余 、 更 新 异常 等 问题 。 

[ 例 2.10] 员工 信息 (员工 号 ， 姓名， 性 别 ， 部 门 ， 部 门 地 址 ) 

此 关系 所 有 属性 都 完全 依赖 于 码 ， 符合 2NF。 但 如 果 某 部 门 有 100 名 职工 ， 元 组 中 的 
部 门 地 址 就 要 重复 100 ZK, 存在 着 较 高 的 数据 见 余 。 原 因 是 关系 中 部 门 地 址 不 是 直接 函数 
依赖 于 员工 号 ， 而 是 员工 号 函数 决定 部 门 ， 部 门 函数 决定 部 门 地 址 ， 才 使 得 部 门 地 址 函数 
依赖 于 员工 号 ， 这 种 依赖 是 传递 依赖 。 存 在 传递 依赖 的 关系 ， 也 有 必要 继续 规范 化 。 

3. 第 3 范式 (3NF) 


定义 : 如 果 关 系 模式 RE2NF， 且 它 的 每 一 个 非 主 属 性 都 不 传递 依赖 于 码 ， 则 称 R 
是 第 3 范式 ， 记 作 : R € 3NF. 

员工 信息 关系 中 ， 员 工 号 一 部 门 ， 部 门 一 部 门 地 址 ; 因此， 员工 号 一 部 门 地 址 。 存 
在 传递 依赖 ， 因 此 不 属于 3NF。 不 属于 ЗМЕ 的 关系 ， 仍 然 会 存在 操作 异常 ， 需 要 对 其 进 
行 改进 。 改 进 的 方法 是 将 存在 传递 依赖 的 部 分 继续 分 解 。 上 述 关系 分 解 如 下 。 

部 门 (部 门 ， 部 门 地 址 ) 

员工 信息 (员工 号 ， 姓名， 性别， 部 门 ) 
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分 解 后 ， 部 门 和 员工 信息 都 不 再 存在 传递 信赖， 是 3NF 的 。 

推论 : 不 存在 非 主 属性 的 关系 模式 一 定 为 3NF. 

如 果 关 系 中 所 有 的 属性 均 为 候选 码 ， 即 为 非 主 属性 ， 则 关系 中 不 存在 非 主 属性 ， 因 
此 不 会 出 现 非 主 属性 传递 依赖 于 码 ， 故 一 定 为 3NF 的 。 

在 数据 库 设计 中 ， 关 系 均 达到 3NF， 在 很 大 程度 上 可 以 消除 元 余 和 更 新 异常 ， 因 此 
一 般 的 数据 库 设计 要 求 满足 3NF。 


4. BCNF 范式 


BCNF (Boyce Сода Normal Form) 是 由 Boyce 和 Сода 提出 的 ， 它 是 3NF 的 进一步 

由 3NF 的 推论 可 知 ， 如 果 关 系 中 所 有 属性 均 为 主 属性 ， 则 该 关系 为 3NF。 可 能 存在 
主 属性 对 码 是 部 分 依赖 和 传递 依赖 ,如果 存 在 部 分 依赖 和 传递 依赖 就 可 能 产生 操作 异常。 
例 2.11 是 属于 3NF 但 不 属于 BCNF. 

[ 例 2.11] 通讯 (城市 名 ， 街 道 名 ， 邮 政 编码 ) 

(城市 名 ， 街 道 名 ) 一 邮政 编码 ， 邮 政 编码 一 城市 名 ， 其 候选 码 为 (城市 名 ， 街 道 
名 ) 和 街道 名 ， 邮 政 编码 )， 此 关系 模式 中 不 存在 非 主 属性 ， 因 此 它 属于 3NF。 如 果 
选取 (城市 名 ， 街 道 名 〉 为 主 码 ， 当 插入 数据 时 ， 如 果 没有 街道 信息 ， 则 邮政 编码 是 那 
个 城市 的 信息 就 无 法 保存 到 数据 库 中 , 因为 街道 名 不 能 为 空 。 可 见 , 即使 是 3NF 的 关系 ， 
也 可 能 存在 操作 异常 。 

存在 操作 异常 的 原因 是 邮政 编码 一 城市 名 ， 邮 政 编码 是 决定 因子 ， 但 不 是 码 ， 即 存 
在 主 属性 对 非 码 的 函数 依赖 。 这 种 情况 下 产生 了 BCNF. 

ЖХ: 设 关系 模式 REINF， 若 任 一 函数 依赖 X>Y (Y RG + X) Ф Хе К 
的 码 ， 则 称 REBCNF。 

关系 R 中 ， 若 每 一 个 决定 因素 都 包含 码 ， 则 REBCNF。 即 只 有 码 能 决定 其 他 属性 。 
一 个 关系 模式 如 果 达 到 了 BCNF， 那 么 ， 在 函数 依赖 范围 内 ， 它 就 已 经 实现 了 彻底 的 分 
离 ， 消 除了 数据 元 余 、 插 入 和 删除 异常 。 


事务 (Transaction) 是 用 户 定义 的 数据 操作 系列 ， 这 些 操作 可 作为 一 个 完整 的 工作 单 
。 一 个 事务 的 所 有 语句 是 一 个 整体 ， 要 么 全 部 执行 ， 要 么 全 都 不 执行 。 请 看 例 2.12。 

[ 例 2.12] 

甲 账户 要 向 乙 账 户 转账 ] 万 元 ， 这 个 活动 包含 以 下 两 个 动作 。 

第 一 个 动作 : 甲 账户 减少 1 万 元 。 

第 二 个 动作 : 乙 账 户 增加 1 万 元 。 

如 果 第 一 个 动作 成 功 了 ， 甲 账户 已 经 减少 了 1 万 元 ， 而 第 二 个 动作 由 于 故障 没有 成 
功 ， 那 么 在 系统 恢复 运行 后 ， 甲 账户 的 金额 是 减少 了 1 万 元 还 是 没有 减少 呢 ? 如 果 乙 账 
户 没 有 增加 ， 正 常情 况 下 甲 账户 应 该 没有 减少 ， 但 运行 时 甲 已 经 减少 了 1 万 元 ， 何 时 让 
甲 恢复 减少 前 的 状态 呢 ?” 这 就 需要 事务 的 概念 。 事 务 可 以 保证 一 个 事务 的 全 部 操作 或 者 
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全 部 成 功 ， 或 者 全 部 失败 。 如 例 2.12 中 ， 使 用 事务 处 理 时 ， 乙 账户 的 操作 没有 成 功 ， 则 
系统 会 自动 撤销 第 一 个 动作 ， 使 甲 账户 的 金额 恢复 处 理 前 的 状态 。 当 系统 恢复 正常 时 ， 
甲 账户 和 乙 账 户 金额 都 是 正确 的 。 

事务 的 开始 与 结束 可 以 由 用 户 显 式 控制 .如 果 用 户 没有 显 式 地 定义 事务 , 则 由 DBMS 
按 默认 规定 自动 划分 事务 。 在 SQL 中 ， 定 义 事务 的 语句 有 以 下 三 条 。 

BEGIN TRANSACTION 

COMMIT 

ROLLBACK 

事务 通常 是 以 BEGIN TRANSACTION 开始 ， 以 COMMIT 或 ROLLBACK 结束 。 
COMMIT 表示 提交 ， 即 提交 事务 的 所 有 操作 。 具 体 地 说 ,就 是 将 事务 中 所 有 对 数据 库 的 
更 新 写 回 到 磁盘 上 的 物理 数据 库 中 ， 事 务 正常 结束 。ROLLBACK 表示 回 深 ， 即 在 事务 
运行 的 过 程 中 发 生 了 某 种 故障 ， 事 务 不 能 继续 执行 ， 系 统 将 事务 中 对 数据 库 的 所 有 已 完 
成 的 操作 全 部 撤销 ， 回 滚 到 事务 开始 时 的 状态 。 这 里 的 操作 指 对 数据 库 的 更 新 操作 。 例 
2.12 使 用 Transact-SQL 处 理 该 事务 的 语句 如 下 。 


BEGIN TRANSACTION 
UPDATE 支付 表 SET 账户 余额 = 账户 余额 一 10000 
WHERE 账户 名 = ' 甲 ' 
UPDATE 支付 表 SET 账户 余额 = 账户 余额 十 10000 
WHERE 账户 名 三 " 乙 " 
COMMIT 


事务 具有 4 个 特性 : 原子 性 (Atomicity)、 一 致 性 (Consistency)、 隔 离 性 (Isolation ) 
和 持久 性 (Durability)。 这 4 个 特性 也 简称 为 事务 的 ACID 特性 。 

1. 原子 性 

事务 的 原子 性 是 指 事务 中 的 操作 是 一 个 组 合 ， 要 么 全 做 ， 要 么 都 不 做 。 

2. 一 致 性 

事务 的 一 致 性 是 指 事务 执行 的 结果 必须 是 使 数据 库 从 一 个 一 致 性 状态 转移 到 另 一 
个 一 致 性 状态 。 因 此 ， 当 事务 成 功 提交 时 ， 数 据 库 就 从 事务 开始 前 的 一 致 性 状态 转移 到 
事务 结束 后 的 一 致 性 状态 。 如 果 由 于 某 种 原因 ， 事 务 在 尚未 完成 时 出 现 了 故障 ， 那 么 就 
会 出 现 事务 中 的 一 部 分 操作 已 经 完成 ， 而 另 一 部 分 操作 还 没有 做 的 现象 ， 这 样 就 有 可 能 
使 数据 库 产生 不 一 致 的 状态 。 因 此 ， 事 务 中 如 果 有 一 部 分 成 功 ， 一 部 分 失败 ， 系 统 就 会 


动 撤销 事务 中 已 完成 的 操作 ， 使 数据 库 回 到 事务 开始 前 的 状态 。 因 此 ， 事 务 的 一 致 性 
和 原子 性 是 密切 相关 的 。 


3. 隔离 性 


事务 的 隔离 性 是 指数 据 库 中 一 个 事务 的 执行 不 能 受 其 他 事务 的 干扰 ， 即 一 个 事务 内 
部 的 操作 及 使 用 的 数据 对 其 他 事务 是 隔离 的 ， 并 发 执行 的 各 个 事务 不 能 相互 干扰 。 
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4. 持久 性 


事务 的 持久 性 也 称 为 永久 性 (Permmanence)， 指 事务 一 旦 提交 ， 则 对 数据 库 中 数据 的 
改变 就 是 永久 性 的 ， 以 后 的 操作 或 故障 不 会 对 事务 的 操作 结果 产生 任何 影响 。 

事务 是 数据 库 并 发 控制 和 恢复 的 基本 单位 。 保 证 事务 的 ACID 特性 是 事务 处 理 的 重 
要 任务 。 事 务 的 ACID 特性 可 能 由 于 以 下 情况 而 遭 到 破坏 。 

(1) 多 个 事务 并 行 运行 时 ， 不 同事 务 的 操作 有 交叉 情况 ; 

(2) 事务 在 运行 过 程 中 被 强迫 停止 。 

在 第 一 种 情况 下 ， 数 据 库 管理 系统 必须 保证 多 个 事务 在 交叉 运行 时 不 影响 事务 的 原 
子 性 。 在 第 二 种 情况 下 ， 数 据 库 管理 系统 必须 保证 被 强迫 终止 的 事务 对 数据 库 和 其 他 事 
务 没有 任何 影响 。 这 些 工 作 都 是 由 数据 库 管理 系统 中 的 恢复 和 并 发 控制 机 制 完成 的 。 


2.5 ”结构 化 查询 语言 


SQL 是 Structured Query Language (结构 化 查询 语言 ) 的 缩写 ， 它 是 最 重要 的 关系 数据 
库 操作 语言 ， 已 经 成 为 标准 的 计算 机 数据 库 语言 。 它 结构 简洁 ， 功 能 强大 ， 简 单 易 学 ， 所 
以 自从 IBM 公司 1981 年 推出 以 来 ， 得 到 了 广泛 的 应 用 ， 许 多 数据 库 产 品 都 支持 SQL 。 

SQL 之 所 以 能 够 为 用 户 和 业界 所 接受 并 成 为 国际 标准 ， 是 因为 它 是 一 个 综合 的 、 功 
能 极 强 同时 又 简单 易学 的 语言 。SQL 集 数 据 查询 (Data Query)、 数 据 操纵 〈Data 
Manipulation)、 数 据 定义 (Data Definition) 和 数据 控制 (Data Control) 功能 于 一 体 ， 具 
有 很 多 优点 。 


1. 非 过 程 化 语言 


SQL 是 一 个 非 过 程 化 的 语言 , 因为 它 一 次 处 理 一 个 记录 , 对 数据 提供 自动 导航 。SQL 
允许 用 户 在 高 层 的 数据 结构 上 工作 , 而 不 对 单个 记录 进行 操作 , 可 操作 记录 集 。 所 有 SQL 
语句 接受 集合 作为 输入 ， 返 回 集合 作为 输出 。SQL 不 要 求 用 户 指定 对 数据 的 存放 方法 。 
这 种 特性 使 用 户 更 易 集中 精力 于 要 得 到 的 结果 。 


2. 统一 的 语言 


SQL 可 用 于 所 有 用 户 的 DB 活动 模型 ， 包 括 系统 管理 员 、 数 据 库 管 理 员 、 应 用 程序 
员 及 其 他 类 型 的 终端 用 户 。 基 本 的 SQL 命令 如 下 。 

(1) 查询 数据 ; 

(2) 在 表 中 插入 、 修 改 和 删除 记录 ; 

(3) 建立 、 修 改 和 删除 数据 对 象 ; 

(4) 控制 对 数据 和 数据 对 象 的 存 取 ; 

(5) 保证 数据 库 一 致 性 和 完整 性 。 


3. 关系 数据 库 的 公共 语言 
由 于 所 有 主要 的 关系 数据 库 管 理 系统 都 支持 SQL， 因 此 SQL 编写 的 程序 是 可 以 移 


植 的 , 并且 也 可 以 嵌入 到 程序 设计 语言 中 。 现在 很 多 数据 库 应 用 开发 工具 都 将 SQL 直接 
融入 自身 的 语言 当中 ， 使 用 起 来 非常 方便 。 


e- 254 SQL 的 数据 定义 - 


SQL 的 数据 定义 功能 包括 定义 表 、 定 义 视图 和 定义 索引 。 表 是 关系 数据 库 中 最 基本 
的 对 象 ， 主 要 用 于 存储 各 种 数据 。 视 图 是 基于 基本 表 的 虚 表 ， 索 引 是 依附 于 基本 表 的 。 
本 节 重 点 介绍 表 的 创建 、 删 除 与 更 新 。 


1. 创建 表 


创建 表 使 用 CREATE TABLE 命令 创建 表 的 结构 和 设置 约束 ， 其 语法 格式 如 下 。 


CREATE TABLE ВА 
(字段 名 数据 类 型 [FRAR] 
[, 字 段 名 数据 类 型 [字段 约束 ]] ) 


HE CD 表示 可 选项 )。 
其 中 ，< 表 名 > 是 所 要 定义 的 基本 表 的 名 字 ， 表 可 以 由 一 个 或 多 个 属性 〈 列 ) 组 成 。 
2. 约束 


对 输入 数据 取 值 范围 和 格式 的 限制 称 为 约束 。 约 束 是 用 来 保证 数据 完整 性 的 。 

1) EBAR 

EHAR (PRIMARY KEY) 是 用 来 保证 表 中 记录 唯一 可 区 分 。 主 码 是 表 中 的 属性 
或 属性 组 ， 用 于 唯一 地 确定 一 行 元 组 .创建 了 主 码 约束 的 属性 ( 列 ) 具有 如 下 特点 : 每 
张 表 仅 能 定义 一 个 主 码 ， 主 码 值 是 表 中 记录 的 标识 ， 主 码 列 可 以 由 一 个 或 者 多 个 列 组 合 
而 成 ， 主 码 值 不 可 为 空 NULL); 主 码 值 不 可 重复 。 若 主 码 是 由 多 个 列 组 成 的 ， 某 一 列 
上 的 数据 可 以 重复 ， 但 多 列 的 组 合 值 不 能 重复 。 

2) 外 码 约束 

外 码 约束 (FOREIGN KEY) 用 于 建立 两 张 表 之 间 的 关联 ， 外 码 是 由 表 中 的 一 个 列 
或 多 个 列 组 成 的 。 创 建 表 时 建立 外 码 约束 的 语句 为 : 


Column REFERENCES ref table (ref_column[,…n]) 
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ref table 是 FOREIGN KEY 约束 所 引用 的 表 名 。ref column 是 FOREIGN KEY ZJ 
束 所 引用 的 表 中 的 一 列 或 多 列 。 

3) 空 值 约束 

空 值 (NULL) 是 指 尚 不 知道 或 不 确定 的 数据 ， 它 不 等 同 于 0 或 空格 。 用 户 常常 将 
不 确定 的 列 值 定义 为 空 值 。 例 如 ， 某 张 表 中 “电话 ”属性 允许 为 空 ， 则 在 输入 数据 时 允 
许 电 话 为 NULL .不 允许 为 空 的 值 定义 为 NOT NULL .在 输入 数据 时 , 定义 为 NOT NULL 
的 列 必须 有 数据 。 

4) 默认 值 约束 

默认 值 约束 DEFAULT) 是 给 出 一 个 默认 值 。 当 用 户 没有 输入 值 时 ， 则 将 使 用 默认 
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值 。 例 如 ， 在 购买 商品 表 的 数量 列 中 ， 可 以 设 定 默认 值 为 0。 
3. 修改 表 
一 张 表 建立 以 后 ， 可 以 根据 需要 对 它 进行 修改 。 修 改 的 内 容 包 括 修改 列 属性 ， 如 列 


名 、 数 据 类 型 、 数 据 长 度 等 , 还 可 以 在 表 结构 中 添加 和 删除 列 、 修 改 约束 等 SQ 用 ALTER 
TABLE 语句 修改 基本 表 ， 其 一 般 格式 为 : 


ALTER TABLE < 表 名 > 


[ADD < 新 列 名 >< 数 据 类 型 > [完整 性 约束 ] ] 
[DROP < 完整 性 约束 名 或 列 名 >] 
[ALTER < 列 名 >< 数 据 类 型 >] ; 


其 中 ，< 表 名 > 是 要 修改 的 基本 表 ，ADD 子 句 用 于 增加 新 列 和 新 的 完整 性 约束 条 件 ， 
DROP 子 句 用 于 删除 指定 的 列 或 完整 性 约束 条 件 , MODIFY 子 句 用 于 修改 原 有 的 列 定义 ， 
包括 修改 列 名 和 数据 类 型 。 


4. 删除 表 
当 某 个 基本 表 不 再 需要 时 ， 可 以 使 用 DROP TABLE 语句 删除 。 语 法 格式 为 : 


DROP TABLE 表 名 [,…n] 


e- 252 SQL 的 数据 查询 -， 


查询 是 SQL 的 核心 功能 ， 是 数据 库 中 使 用 最 多 的 操作 。SQL 提供 了 SELECT 语句 
进行 数据 库 的 查询 。 

本 节 所 有 查询 均 在 Supplier、Product、Product_Supplier 三 张 表 上 进行 。 假 设 这 三 张 
表 中 已 经 有 了 数据 ， 如 表 2.9 一 表 2.11 所 示 。 


ss #29 Supplier 供应 商 表 
Supplier ID Name Address Phone PostalCode ConstactPerson 


132102 


CreateDate Remark 
2005-8-5 12% 

2004-7-3 
2001-3-1 


sss 2N _ Ргодис! Supplier 商品 供应 商 表 


Product ID Supplier ID 


SELECT 语句 对 数据 库 进行 查询 并 返回 符合 用 户 查询 标准 的 结果 数据 。SELECT 语 
句 的 语法 格式 如 下 。 

SELECT columnl [, column2,etc] FROM tablename 

[WHERE < 检索 条 件 表达 式 >] 

[GROUP BY < 分 组 依据 列 >] 

[HAVING < 组 提取 条 件 >] 

[ORDER BY < 排序 依据 列 >] 


SELECT 语句 中 位 于 SELECT 关键 词 之 后 的 列 名 用 来 决定 哪些 列 将 作为 查询 结果 返 
回 。 用 户 可 以 按照 自己 的 需要 选择 任意 列 ， 还 可 以 使 用 通配符 “*” 来 设 定 返回 表格 中 的 
所 有 列 。 
SELECT 语句 中 位 于 FROM 关键 词 之 后 的 表 名 是 进行 查询 操作 的 目标 表 。WHERE 
可 选 从 名 用 来 规定 哪些 数据 值 或 哪些 行将 被 作为 查询 结果 返回 或 显示 。 GROUP BY 子 句 
用 于 对 检索 到 的 记录 进行 分 组 。HAVING 子 句 用 于 指定 组 的 选择 条 件 。 ORDER ВУ 子 句 
用 于 对 查询 的 结果 进行 排序 。 在 这 些 子 句 中 ，SELECT 子 句 和 FROM 子 句 是 必需 的 ， 其 
他 子 句 都 是 可 选 的 。 


1. 简单 查询 


简单 查询 这 里 指 的 是 数据 源 只 涉及 一 张 表 的 查询 。 
[ 例 2.13] 查询 Supplier 表 中 所 有 的 供应 商 编号 、 名 称 和 联系 人 姓名 
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SELECT Supplier_ID,Name,ConstactPerson FROM Supplier 


[9] 2.14] 查询 Supplier 表 中 所 有 记录 


SELECT Supplier ІР, Мате, Address, Phone, PostalCode, СопзЕасЕРекзоп FROM 
Supplier 


等 价 于 : 
SELECT * FROM Supplier 


1) 别名 
[Ü] 245] 查询 Product 表 中 ， 所 有 商品 都 是 5 件 时 的 总 价格 
分 析 : Product 表 中 己 有 所 有 商品 的 单价 ， 要 查询 5 件 的 价格 ， 只 需要 将 单价 乘 以 5 
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即 可 求 出 。 查 询 语句 应 为 : 

SELECT Product ID,Name,Price * 5 FROM Product 

经 过 计算 的 列 的 查询 结果 中 没有 列 标题 。 需 要 标题 时 要 指定 列 名 。 对 于 那些 经 过 计 
算 的 列 、 函 数列 和 常数 列 都 应 该 对 其 给 定 一 个 别名 。 对 列 指定 别名 的 方法 为 : 

列 名 | 表达 式 [AS] 列 别名 

或 者 

列 别名 三 列 名 | 表达 式 

则 例 2.15 可 以 改 为 : 


SELECT Product ID,Name,Price * 5 AS 5 件 商品 价格 FROM Product 


或 者 是 : 


SELECT Product ID,Name, 5 件 商 品 价格 =Price * 5 FROM Product 


2) 删除 重复 行 

在 数据 库 表 中 本 来 不 存在 取 值 完全 相同 的 行 ， 但 对 列 进行 了 选择 后 ， 就 有 可 能 在 查 
询 结果 中 出 现 取 值 完全 相同 的 行 。 取 值 相同 的 行 在 结果 中 是 没有 意义 的 ， 因 此 应 该 消除 
这 些 取 值 相同 的 行 。SELECT 语句 中 使 用 ALL 或 DISTINCT 选项 来 显示 表 中 符合 条 件 的 
所 有 行 或 删除 其 中 重复 的 数据 行 ， 默 认为 ALL。 使 用 DISTINCT 选项 时 ， 对 于 所 有 重复 
的 数据 行 在 SELECT 返回 的 结果 集合 中 只 保留 一 行 。 

[ 例 2.16] 在 Product Supplier 表 中 ， 查 询 有 哪些 供应 商 在 供应 产品 


SELECT Supplier ID FROM Product_Supplier 


在 此 结果 中 有 许多 重复 的 行 , 使 用 DISTINCT 关键 字 可 以 去 掉 重 复 的 行 。DISTINCT 
关键 字 放 在 SELECT 命令 的 后 面 、 目 标 列 名 的 前 边 。 
去 掉 重 复 行 的 命令 为 : 


SELECT DISTINCT Supplier ID FROM Product Supplier; 


3) 限制 返回 的 行 数 

使 用 ТОР n [PERCENT] 选 项 限制 返回 的 数据 行 数 ，TOPn WIRE и 17, ЇЇ TOP n 
PERCENT， 说 明 是 表示 百分数 ， 指 定 返回 的 行 数 等 于 总 行 数 的 百 分 之 几 。 

[ 例 2.17] 查询 Product 表 中 的 前 两 项 


SELECT TOP 2 * FROM Product 
[ 例 2.18] 查询 Product 表 中 的 前 20% 项 


SELECT TOP 20 PERCENT * FROM Product 


2. 使 用 WHERE 子 句 设置 查询 条 件 
WHERE 子 句 用 于 设置 查询 条 件 ， 过 滤 掉 不 需要 的 数据 行 。WHERE 子 句 可 包括 各 


种 条 件 运 算 符 ， 如 下 所 示 。 


比较 运算 符 ( 大 小 比较 ); >, >=. =, <. <=, <>. !>‚ !<, 

范围 运算 符 (表达 式 值 是 否 在 指定 的 范围 ): BETWEEN AND, NOT BETWEEN AND 。 

列表 运算 符 (判断 表达 式 是 否 为 列表 中 的 指定 项 ) : IN (项 1, 项 2,…)、NOTIN (项 1, 项 2,…)。 
模式 匹配 符 (判断 值 是 否 与 指定 的 字符 通 配 格式 相符 ) : LIKE, NOT LIKE, 

空 值 判断 符 (判断 表达 式 是 否 为 空 ) : IS NULL, NOT IS NULL, 

逻辑 运算 符 (用 于 多 条 件 的 逻辑 连接 ) : МОТ, AND, ОВ. 


[ 例 2.19] 查询 Product 表 中 价格 大 于 5 的 数据 
SELECT * FROM Product WHERE Price>5; 
[ 例 2.20] 查询 Product 表 中 价格 大 于 5 并 且 小 于 10 的 记录 


SELECT * FROM Product WHERE Price BETWEEN 5 AND 10; 
相当 于 Price>=5 AND Price<=10 


1) 列表 运算 符 

IN 是 一 个 逻辑 运算 符 ， 可 以 用 来 查找 值 属 于 指定 集合 的 行 。IN 的 含义 为 当 列 中 的 
值 是 IN 中 的 某 个 常量 值 时 ， 结 果 为 TRUE， 表 明 此 记录 为 符合 条 件 的 记录 。 

[ 例 2.21] 查询 Supplier 表 中 地 址 为 北京 或 者 青岛 的 记录 


SELECT * FROM Supplier WHERE Address IN (' 北 京 '，' 青 岛 '); 
相当 于 : 
SELECT * FROM Supplier WHERE Address=' 北 京 ' OR Address=' 青 岛 ' 


2) 模式 匹配 符 

LIKE 常用 于 模糊 查找 ， 它 判断 列 值 是 否 与 指定 的 字符 串 格式 相 匹 配 。LIKE 可 使 用 
以 下 通 配 字符 : 百 分 号 %， 表 示 可 匹配 任意 类 型 和 长 度 的 字符 ， 下 夯 线 _， 表 示 匹 配 单个 
任意 字符 , 它 常用 来 限制 表达 式 的 字符 长 度 ; 方 括号 [Ь 指定 一 个 字符 、 字 符 串 或 范围 ， 
要 求 所 匹配 对 象 为 其 中 的 任 一 个 ; []， 其 取 值 与 ] 相同 ， 但 它 要 求 所 匹配 对 象 为 指定 字 
符 以 外 的 任意 一 个 字符 。 

[ 例 2.22] 查询 Product 表 中 以 “ 电 ” 开头 的 商品 编号 、 名 称 和 价格 


SELECT РгодисЕ Тр, Мате, Price FROM Product WHERE Name LIKE ' 电 S$'; 


3) 空 值 判断 符 

判断 某 个 值 是 否 为 空 值 ， 不 能 使 用 普通 的 比较 运算 符 ( 如 =、!= 等 )， 而 只 能 使 用 
专门 判断 空 值 的 子 句 来 完成 。 判 断 取 值 为 空 的 语句 格式 为 : 列 名 15 NULL。 判断 取 值 不 
为 空 的 语句 格式 为 : 列 名 IS NOT NULL. 

[B] 223] 查询 Product Ж Ф Remark 取 值 为 空 的 记录 


SELECT * FROM Product WHERE Remark IS NULL; 


对 查询 结果 排序 ， 使 用 ORDER BY 子 句 对 查询 返回 的 结果 按 一 列 或 多 列 排序 。 
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ORDER BY 子 句 的 语法 格式 为 : 
ORDER ВУ (column name [ASCIDESC]} [,--п] 


其 中 ，ASC 表示 升序 ， 为 默认 值 ，DESC 为 降序 。 
[B] 224] # Product 表 中 的 所 有 记录 ， 查 询 结果 按照 价格 升序 排序 


SELECT * FROM Product ORDER BY Price 


4) 多 条 件 查询 
在 WHERE 子 句 中 可 以 使 用 逻辑 运算 符 AND 或 OR 来 组 成 多 条 件 查询 。AND 表 
示 只 有 在 全 部 满足 所 有 的 条 件 时 结果 才 为 TRUE, OR 表示 只 要 满足 其 中 一 个 条 件 结果 即 
为 TRUE。 
[ 例 2.25] Æ Supplier 供应 商 表 中 查询 联系 人 姓 张 ， 供 应 商 地 址 为 厦门 的 所 有 信息 


SELECT * FROM Supplier WHERE ConstactPerson LIKE ' 张 $S' AND Address='|#[]'; 


3. 使 用 计算 函数 汇总 数据 


计算 函数 也 称 为 集合 函数 或 聚合 函数 、 聚 集 函 数 ， 其 作用 是 对 一 组 值 进行 计算 并 返 
一 个 单 值 。SQL 提供 的 计算 函数 如 下 。 

(1) COUNT (*): 统计 表 中 行 的 个 数 。 

(2) COUNT(< 列 名 >): 统计 本 列 列 值 的 个 数 。 

G) SUM(< 列 名 >): 计算 列 值 的 总 和 《必须 是 数值 型 列 )。 

(4) AVG(< 列 名 >): 计算 列 值 的 平均 值 ( 必 须 是 数值 型 列 )。 

(5) MAX(< 列 名 >): 求 列 值 最 大 值 。 

(6) MIN(< 列 名 >): 求 列 值 最 小 值 。 

上 述 函 数 中 除 COUNT (*) 外 ， 其 他 函数 在 计算 过 程 中 均 忽 略 NULL 值 。 

[ 例 2.26] 统计 Product 表 中 商品 总 数 


SELECT COUNT(*) FROM Product; 


[ 例 2.27] 统计 Product 表 中 所 有 商品 的 总 价格 


回 


SELECT SUM(Price) FROM Product; 
[ 例 2.28] 统计 Product 表 中 电器 类 商品 的 平均 价格 


SELECT АУС (Price) FROM Product WHERE Name LIKE ' 电 %'; 


4. 对 查询 结果 进行 分 组 计算 


有 时 需要 先 将 数据 分 组 , 然后 再 对 每 个 组 进行 计算 , 而 不 是 对 全 表 进 行 计算 。 例 如 ， 
统计 每 个 销售 商 销售 的 产品 平均 价格 ， 就 要 在 商品 供应 商 表 中 对 供应 商 进行 分 组 。 分 组 
使 用 GROUP BY 子 句 。 分 组 的 目的 是 细 化 作用 对 象 。 使 用 GROUP BY 子 句 时 ， 如 果 在 
SELECT 的 查询 中 包含 计算 函数 ， 则 是 针对 每 个 组 计算 出 一 个 汇总 值 ， 从 而 实现 对 查询 


结果 的 分 组 统计 。 
HAVING 子 句 用 于 对 分 组 后 的 结果 再 进行 过 滤 ， 它 的 功能 有 点 儿 像 WHERE TJ, 
但 它 作 用 于 组 而 不 是 全 表 。HAVING 子 句 通常 与 GROUP BY 子 句 一 起 使 用 。 
分 组 子 句 跟 在 WHERE 子 句 的 后 面 ， 一 般 格式 为 : 
GROUP BY < 分 组 依据 列 > [HAVING < 组 提取 条 件 >] 


[ 例 2.29] 
查询 Product Supplier 商品 供应 商 表 中 每 个 供应 商 销售 的 商品 种 类 ， 列 出 供应 商号 
和 商品 种 类 数 。 
SELECT Supplier ID，COUNT (Product ID) AS 商品 数目 FROM Product Supplier 
GROUP BY Supplier Ір; 
该 语句 首先 将 查询 结果 按 Supplier ID 的 值 分 组 ， 所 有 Supplier ID 值 相同 的 行 归 为 
组 ， 然 后 再 用 COUNT 函数 对 每 一 组 进行 计算 ， 求 得 每 组 商品 种 类 。 
[ 例 2.30] 
查询 Product Supplier 商品 供应 商 表 中 供应 商 销售 的 商品 种 类 数 大 于 等 于 2 的 信息 ， 
列 出 供应 商号 和 商品 种 类 数 。 
SELECT Supplier_ID, COUNT (Product ID) AS 商品 数目 FROM Product Ѕирр1іег 
GROUP BY Supplier Ір HAVING COUNT(*)>=2; 


5. 多 表 连 接 查 询 

前 面 的 查询 都 是 针对 一 张 表 的 ， 有 时 需要 从 多 张 表 中 获取 信息 ， 这 样 就 涉及 多 表 查 
询 。 多 表 查 询 可 以 通过 连接 运算 符 实现 。 连 接 是 关系 数据 库 模型 的 主要 特点 ， 也 是 区 别 
于 其 他 类 型 数据 库 管理 系统 的 一 个 标志 。 连 接 主要 包括 内 连接 、 外 连接 和 交叉 连接 等 类 
型 。 这 里 只 介绍 最 常用 的 内 连接 。 

使 用 内 连接 时 ， 如 果 两 张 表 的 相关 字段 满足 连接 条 件 ， 则 从 这 两 张 表 中 提取 数据 
并 组 合成 新 的 记录 。 连 接 可 以 在 SELECT 语句 的 FROM TAJ WHERE 子 句 中 建立 ， 
在 FROM 子 句 中 指出 连接 有 助 于 将 连接 操作 与 WHERE 子 句 中 的 搜索 条 件 区 分 开 来 。 所 
以 ， 在 Transact-SQL 中 推荐 使 用 这 种 方法 ， 语 法 格式 为 : 


FROM 表 1 JOIN 表 2 [ON < 连接 条 件 >] 
在 连接 条 件 中 要 指明 两 张 表 按 什么 条 件 进行 连接 。 连 接 条 件 的 一 般 格式 为 : 
[< 表 名 1.>] [< 列 名 1>] < 比较 运算 符 > [< 表 名 2.>] [< 列 名 2>] 
两 张 表 的 连接 必须 是 可 以 比较 的 ， 否 则 比较 将 是 无 意义 的 。 当 比较 运算 符 是 等 号 
(“=”) 时 ， 称 为 等 值 连接 。 
[ 例 2.31] 查询 每 件 商品 信息 及 其 供应 商 信 息 
分 析 : 商品 信息 在 Product 表 中 存放 ， 商 品 的 供应 商 信 息 在 Product Supplier 表 中 存 
Ж. 因此 查询 实际 涉及 两 张 表 , 将 这 两 张 表 进行 连接 , 连接 的 条 件 应 为 Product ID 相同 。 


SELECT * FROM Product JOIN Product Supplier 
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ON Product.Product ID= Product Supplier.Product ID; 


查询 结果 会 包含 两 张 表 的 全 部 列 ，Product ID 列 将 重复 出 现 ， 这 是 不 必要 的 。 因 此 ， 
在 写 查 询 语句 时 应 当 直 接 写 所 需要 的 列 名 ， 而 不 是 使 用 “*”。 如 果 连 接 后 的 表 中 有 重复 
的 列 名 (Product_ID 列 )， 则 在 ON 子 句 中 对 Product ID 属性 前 加 上 表 名 前 级 限制 ， 指 
明 是 哪 张 表 的 Product ID. 


@ - 2.5.3 SQL 的 数据 更 新 -， 


数据 的 查询 用 SELECT 语句 。 数 据 的 更 新 ， 如 添加 、 修 改 和 删除 使 用 数据 库 修改 
语句 : INSERT, UPDATE 和 DELETE 语句 。 数 据 更 新 不 返回 结果 集 ， 而 是 返回 响应 
的 行 数 。 

1. 插入 数据 

插入 数据 的 INSERT 语句 的 格式 为 : 

INSERT [INTO] < 表 名 > [< 列 名 >] VALUES ( 值 列表 ) 

说 明 : 

列 名 必须 是 插入 表 中 定义 的 列 名 , 值 列表 中 的 表 可 以 是 常量 也 可 以 是 空 值 NULL), 
各 值 之 间 使 用 逗号 分 隔 。 列 名 与 值 列 表 中 的 值 的 顺序 要 对 应 ， 数 据 类 型 必须 一 致 。 如 果 
表 名 后 没有 指明 列 名 ， 则 新 插入 的 记录 的 值 的 顺序 必须 与 表 中 定义 列 的 顺序 一 致 ， 且 每 
一 个 列 均 要 有 值 (可 以 是 空 值 )。 

[ 例 2.32] 向 员工 信息 表 (员工 号 ， 姓 和 名， 性别， 年龄， 部 门 ) 中 添加 记录 (1003, 
李 明 ， 男 ，20， 销 售 部 ) 


INSERT INTO Employee (1003, ' 李 明 '， ' 男 "'，20,，' 销 售 部 ') ; 
[ 例 2.33] 向 员工 信息 表 中 插入 记录 (1004， 王 武 ， 男 ，18 )， 部 门 暂 缺 
INSERT INTO Employee (EmployeeID, name, sex, age) VALUES (1004，' 王 武 "，' 男 ,18) 


由 于 插入 的 数据 与 表 中 列 的 个 数 不 一 致 ， 此 时 必须 要 在 表 名 后 加 入 列 的 信息 ， 且 插 
入 的 数据 与 表 后 列 的 顺序 保持 一 致 。 在 员工 信息 表 中 ， 部 门 列 允 许 为 空 ， 此 句 实际 插入 
的 值 为 (1004， ЕЖ, ' 男 '，18，NULL)。 


2. 更 新 数据 
修改 数据 使 用 UPDATE 语句 。UPDATE 语句 的 语法 格式 为 : 
UPDATE < 表 名 > SET < 列 名 = 表达 式 > [WHERE 更 新 条 件 ] 


其 中 ， 表 名 给 出 了 修改 数据 表 的 名 称 。SET 子 句 指定 要 修改 的 列 ， 表 达 式 指定 修改 
后 的 新 值 。WHERE 子 句 用 于 指定 需要 修改 表 中 的 哪些 记录 。 如 果 省 略 WHERE 子 句 ， 
则 是 无 条 件 更 新 ， 表 示 要 修改 SET 中 指定 的 列 的 全 部 值 。 


[BJ 234] 无 条 件 更 新 ， 将 所 有 员工 的 年 龄 加 1 

UPDATE Employee set аде=аде+1; 

[012.35] 有 条 件 更 新 ， 将 男性 员工 的 年 龄 加 1 

UPDATE Employee set аде=аде+1 WHERE SEX=' 男 '; 

3. 删除 数据 

使 用 DELETE 语句 删除 表 中 的 数据 。 DELETE 语句 的 语法 格式 为 : 
DELETE [ FROM ] < 表 名 > [WHERE 删除 条 件 ] 


其 中 ， 表 名 给 出 了 删除 数据 表 的 名 称 。WHERE 子 句 用 于 指定 需要 删除 表 中 的 哪些 
记录 ， 只 有 满足 条 件 的 记录 才 会 被 删除 。 如 果 省 略 WHERE 子 句 ， 则 是 无 条 件 删除 ， 表 
示 要 删除 表 中 的 所 有 记录 。 

[ 例 2.36] 无 条 件 删除 ， 删 除 员工 表 中 所 有 员工 的 信息 


DELETE FROM Employee; 
[012.37] 有 条 件 删除 , 删除 员工 表 中 员工 编号 为 1003 的 信息 


DELETE FROM Employee WHERE EmployeeID=1003; 
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视图 是 关系 数据 库 系 统 提供 给 用 户 以 多 种 角度 观察 数据 的 重要 机 制 。 视 图 是 从 一 个 
或 多 个 基本 表 导 出 的 表 ， 与 基本 表 不 同 ， 视 图 是 一 个 虚 表 。 数 据 库 中 的 视图 中 并 没有 存 
放 真 正 的 数据 ， 数 据 仍 然 存 放 在 基本 表 中 。 数 据 库 中 只 存放 视图 的 定义 ， 而 不 存放 视图 
对 应 的 数据 。 所 以 基本 表 中 的 数据 发 生变 化 ， 从 视图 查询 的 数据 也 随 之 改变 。 可 以 将 视 
图 想象 为 一 个 窗口 ， 透 过 窗口 可 以 看 到 基本 表 中 感 兴趣 的 数据 。 

视图 一 经 定义 ， 就 像 基本 表 一 样 可 以 被 查询 、 删 除 。 也 可 以 在 视图 之 上 再 定义 新 的 
视图 ， 但 对 视图 的 更 新 操作 有 一 定 的 限制 。 

1. 定义 视图 

定义 视图 的 基本 语法 为 : 

CREATE VIEW < 视图 名 > [ (< 列 名 >, < 列 名 >,…)] AS < 子 查 询 > 


其 中 , 子 查 询 就 是 普通 的 SELECT 语句 。 视 图 名 后 的 属性 列 或 者 省 略 或 者 全 部 列 出 。 
省 略 时 表示 视图 的 列 由 子 查 询 中 查询 到 的 列 组 成 ， 但 在 下 面 三 种 情况 下 必须 指定 组 成 视 
图 的 所 有 列 名 : 某 个 列 是 使 用 函数 或 者 表达 式 求 出 的 ; 多 张 表 连 接 时 选 出 了 几 个 同名 列 
作为 视图 的 字段 ， 需 要 在 视图 中 为 某 个 列 启 用 新 的 名 字 。 

[ 例 2.38] 建立 销售 部 门 员工 的 视图 


CREATE VIEW sales_employee 
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本 例 中 省 略 了 视图 sales_employee 的 列 名 ， 则 视图 的 列 由 SELECT 语句 中 的 
EmployeeID name, sex, age 四 个 列 组 成 。 

视图 不 仅 可 以 建立 在 单个 基本 表 上 ， 也 可 以 建立 在 多 个 基本 表 上 。 

[012.39] 建立 供应 商 名 为 “ 诚 达 ” 的 公司 供应 商品 的 视图 

分 析 : 供应 商 名 存储 在 供应 商 表 (Supplier)， 供 应 商 供应 哪些 商品 的 信息 存储 在 商 
品 -供应 商 表 (Product_Supplier)， 现 要 查询 出 供应 哪些 商品 必须 建立 两 张 表 的 连接 ， 连 
接 的 条 件 应 为 供应 商 ID 一 致 。 建 立 视图 的 语句 为 : 


2. 删除 视图 
删除 视图 的 语法 为 : 
двор VIEW < 视图 和 > — í í í í í í í í í í í í í í í 


删除 视图 后 ， 视 图 的 定义 将 从 数据 库 中 删除 ， 该 视图 将 无 法 再 使 用 。 
[ 例 2.40] 删除 销售 部 门 员工 的 视图 


执行 此 语句 后 ，sales_employee 视图 将 从 数据 库 中 删除 。 

3. 查询 视图 

视图 定义 后 ,用 户 可 以 像 对 基本 表 的 操作 一 样 对 视图 进行 查询 ,不 同 之 处 在 于 FROM 
语句 后 跟随 的 是 视图 名 而 不 是 表 名 。 

[ 例 2.41] 查询 销售 部 门 员工 视图 中 女性 员工 信息 


该 语句 执行 时 ， 数 据 库 管 理 系统 将 先进 行 有 效 性 检查 ， 检 查 查 询 的 表 、 视 图 等 是 否 
存在 。 如 果 存 在 ， 则 取出 视图 的 定义 ， 把 视图 的 定义 和 用 户 的 查询 语句 结合 起 来 ， 转 换 
成 等 价 的 对 基本 表 的 查询 ， 然 后 再 执行 查询 操作 。 


2. 实体 之 间 的 联系 有 哪些 ? 请 为 每 一 种 联 
系 举 出 一 个 例子 。 

3. 从 数据 库 管理 系统 角度 看 , 数据 库 系 统 通 
常 采用 哪 三 级 模式 ? 作用 是 什么 ? 

4. 关系 模型 的 数据 完整 性 包含 哪些 内 容 ? 

5. 有 “出 版 社 ” 和 “作者 ”两 个 实体 ， 两 实 
体 之 间 是 多 对 多 的 联系 ， 请 设计 适当 的 属性 ， 画 
出 E-R 图 , 再 将 其 转换 为 关系 模型 (包括 关系 名 ， 
属性 名 ， 码 )。 

6. 设 有 关系 模式 : 学 生 (学 号 ， 姓 名 ， 出 生 
日 期 ， 专 业 ， 专 业 负责 人 )， 其 中 ， 一 个 学 生 只 能 
在 一 个 专业 学 习 ， 一 个 专业 的 学 生 只 能 有 一 个 专 
业 负 责 人 。 指 出 此 关系 模式 的 候选 码 ， 并 判断 此 
关系 模式 是 第 几 范式 的 。 若 不 是 第 3 范式 的 ， 请 
将 其 规范 化 为 第 3 范式 的 关系 模式 ， 并 指出 分 解 
后 的 每 个 关系 模式 的 主 码 和 外 码 。 

7. 说 明 事 务 的 概念 及 4 个 特性 。 

8. 设 有 关于 职工 -社团 的 三 张 表 : 

职工 (职工 号 ， 姓名， 年龄， 性 别 》 

社团 (社团 编号 , МА, А, 活动 地 点 ) 

参加 (职工 号 ,社团 编号 ， 参加 日 期 ) 


其 中 ， 职 工 表 的 主 码 为 职工 号 ， 社团 的 主 码 
为 社团 编号 ; 参加 的 主 码 为 职工 号 和 社团 编号 ， 
职工 号 为 外 码 ， 参 照 表 为 职工 表 ， 社 团 编号 为 外 
码 ， 参 照 表 为 参加 表 。 

试用 SQL 语句 定义 上 述 三 张 表 。 

9. 设 有 以 下 三 张 表 , 完成 要 求 的 SQL 语句 。 

FE CHG, ER, EA, FR, RA) 

课程 〈 课 程 号 ， 课 程 名 ， 学 分 ， 学 时 ) 

学 生 选 课 ( 学 号 ， 课 程 号 ， 成 绩 ) 

(1) 查询 学 生 选 课表 中 的 所 有 数据 。 

(2) 查询 计算 系 学 生 的 姓名 、 年 龄 。 

(3) 查询 成 绩 为 70 一 80 的 学 生 的 学 号 、 课 
程 号 和 成 绩 。 

(4) 统计 每 个 系 的 学 生 人 数 。 

(5) 查询 选修 了 课程 号 为 C05 的 学 生 的 姓名 
和 系 名 。 

(6) 删除 成 绩 小 于 50 分 的 学 生 的 选课 记录 。 

(7) 将 所 有 选修 了 课程 C01 的 学 生成 绩 加 
10 分 。 

10. 模拟 电子 商务 系统 ， 设 计数 据 库 ， 并 在 
MySQL 中 使 用 SQL 命令 建立 表 ， 导 入 数据 。 要 
Ж: 一 个 用 户 可 以 有 多 个 订单 ;一 个 订单 可 以 包 
含 多 种 商品 ; 每 种 商品 有 一 定 的 数量 。 
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JDBC 基础 


31 JDBC 概述 


JDBC 为 访问 不 同 的 数据 库 提供 了 一 种 统一 的 途径 ， 是 面向 接口 编程 的 一 种 体现 。 
JDBC 的 目标 是 使 Java 程序 员 使 用 JDBC 可 以 连接 提供 了 驱动 程序 的 数据 库 系统 ， 这 样 
就 使 得 程序 员 无 须 对 特定 的 数据 库 系统 的 特点 有 过 多 的 了 解 ， 从 而 大 大 简化 和 加 快 了 开 
发 过 程 。JDBC 是 一 种 用 于 执行 SQL 语句 的 Java API， 由 一 组 用 Java 编程 语言 编写 的 类 
和 接口 组 成 。 

图 3.1 是 使 用 ОВС 的 程序 结构 .有 了 JDBC 可 以 使 Java 程序 员 用 Java 语言 来 编写 
完整 的 数据 库 方 面 的 应 用 程序 ， 也 可 以 读 取 不 同 数据 库 管理 系统 中 的 数据 ， 而 与 数据 库 
管理 系统 中 的 数据 存储 格式 无 关 。 同 时 由 于 Јама 语言 具有 跨 平台 性 ， 使 得 程序 可 以 作 
用 于 不 同 操作 系统 平台 和 数据 库 管理 系统 平台 。 


Java Application 


定义 了 规范 、 接 口 


MySQL) JDBC 


ST 


ГҮ 图 3.1 _ 使 用 JDBC 的 程序 结构 示意 图 


JDBC 提供 了 一 组 接口 ， 其 实现 由 不 同 的 数据 库 厂 商 完 成 。 接 口 的 实现 称 为 JDBC 
驱动 。Connection 接口 定义 了 连接 数据 库 操作 的 规范 。 每 个 不 同 的 数据 库 厂 商 提供 接口 
的 实现 程序 ， 即 数据 库 产品 的 连接 驱动 。 

JDBC 驱动 程序 总 共有 以 下 4 种 类 型 。 

第 一 类 ，JDBC-ODBC 桥 。 

第 二 类 ， 部 分 本 地 API， 部 分 Java 的 驱动 程序 。 

第 三 类 ，JDBC 网 络 纯 Java 驱动 程序 。 

第 四 类 ， 本 地 协议 纯 Java 的 JDBC 驱动 程序 。 

ODBC (Open DataBase Connectivity， 开 放 式 数据 库 连 接 ) 是 Windows 平台 下 提供 
的 统一 访问 方式 。 使 用 者 在 程序 中 只 需要 调用 ODBC API, H ODBC 驱动 程序 将 调用 转 
换 成 为 对 特定 数据 库 的 调用 请 求 。JDBC-ODBC 桥 由 Sun 公司 提供 ， 是 JDK 提供 的 标准 
API。 这 种 类 型 的 驱动 实际 是 把 所 有 JDBC 的 调用 传递 给 ODBC， 再 由 ODBC 调用 本 地 
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数据 库 驱动 代码 。 只 要 本 地 装 有 相关 的 ODBC 驱动 , 那么 采用 JDBC-ODBC 桥 几乎 可 以 
访问 所 有 的 数据 库 。JDBC-ODBC 方法 对 于 客户 端 已 经 具备 ODBC Driver 的 应 用 还 是 可 
行 的 。 但 是 ,由 于 JDBC-ODBC 先 调用 ODBC, 再 由 ODBC 去 调用 本 地 数据 库 接口 访问 
数据 库 ， 所 以 执行 效率 比较 低 ， 对 于 那些 大 数据 量 存 取 的 应 用 是 不 适合 的 。 另 外 ， 这 种 
桥接 方式 最 大 的 问题 是 把 Java 不 由 自主 地 和 Windows 绑 定 在 了 一 起 ， 失 去 了 Java 跨 平 
台 的 特点 ， 这 对 于 Java 应 用 程序 来 说 是 不 可 接受 的 。 所 以 目前 这 种 形式 的 驱动 程序 已 
经 很 少 使 用 了 。 

第 二 类 ， 部 分 本 地 API， 部 分 Java 的 驱动 程序 。JDBC 驱动 程序 是 本 机 API 的 部 分 
Java 代码 ， 用 于 把 JDBC 调用 转换 成 主流 数据 库 API 的 本 机 调用 。JDBC 本 地 驱动 程序 
桥 提供 了 一 种 JDBC 接口 , 它 建立 在 本 地 数据 库 驱 动 程序 的 顶层 , 而 不 需要 使 用 ODBC. 
JDBC 驱动 程序 将 对 数据 库 的 API 从 标准 的 JDBC 调用 转换 为 本 地 调用 。 使 用 此 类 型 需 
要 牺牲 JDBC 的 平台 独立 性 ， 还 要 求 在 客户 端 安 装 一 些 本 地 代码 。 另 外 ， 由 于 第 二 类 驱 
动 程序 没有 使 用 纯 Јама API, ЈЕ Java 应 用 连接 到 数据 源 时 ， 往 往 必 须 执行 一 些 额 外 的 配 
置 工作 。 

第 三 类 ，JDBC 网 络 纯 Java 驱动 程序 。 使 用 这 类 驱动 程序 时 ， 不 需要 在 本 地 计算 机 
上 安装 任何 附加 软件 ， 但 必须 在 安装 数据 库 管理 系统 的 服务 器 端 加 装 中 间 件 
(Middleware)， 这 个 中 间 件 负责 所 有 存 取 数据 库 时 必要 的 转换 。 工 作 原理 是 ， 驱动 程序 
将 JDBC 访问 转换 成 与 数据 库 无 关 的 标准 网 络 协议 (通常 是 HTTP ЕЁ HTTPS) 送出 , Ж 
后 再 由 中 间 件 服务 器 将 其 转换 成 数据 库 专 用 的 访问 指令 ， 完 成 对 数据 库 的 操作 。 中 间 件 
服务 器 能 支持 对 多 种 数据 库 的 访问 。 

第 四 类 ， 本 地 协议 纯 Java 的 JDBC 驱动 程序 。 这 类 驱动 程序 是 直接 面向 数据 库 的 纯 
Java 驱动 程序 ， 即 所 谓 的 “ 瘦 ” 驱 动 程序 。 使 用 这 类 驱动 程序 时 无 须 安装 任何 附加 的 软 
件 (无 论 是 本 地 计算 机 或 是 数据 库 服 务 器 端 ), 所 有 存 取 数 据 库 的 操作 都 直接 由 JDBC ik 
动 程序 来 完成 ， 此 类 驱动 程序 能 将 JDBC 调用 转换 成 DBMS 专用 的 网 络 协议 ,能够 自动 
识别 网 络 协议 下 的 特殊 数据 库 并 能 直接 创建 数据 连接 。 本 章 所 用 的 mysql-connector- 
JDBC.jar 是 第 四 类 驱动 。 


3.2 JDBC 核心 接口 和 类 


JDBC 中 定义 了 访问 数据 库 的 接口 ， 相 当 于 访问 数据 库 的 规范 。 但 是 仅 有 接口 是 不 
行 的 ， 接 口 的 实现 由 各 个 数据 库 厂商 完成 。java.sql 包 ， 包 含 用 于 操作 数据 库 的 各 种 类 和 
接口 ， 是 JDBC 1.0 版 本 的 核心 包 。 连 接 数 据 库 时 ， 要 先导 入 java.sql 包 ， 本 节 介 绍 的 接 
口 和 类 都 在 此 包 中 。 


全 - 32.1 Driver 接口 -~ 


Java.sql.Driver 接口 是 所 有 JDBC 驱动 程序 需要 实现 的 接口 。 在 程序 中 不 需要 直接 去 
访问 实现 了 Driver 接口 的 类 ， 而 是 由 驱动 程序 管理 (java.sql.DriverManager) 去 调用 这 
些 Driver 的 实现 类 。 


Driver 接口 由 数据 库 厂 家 提供 ， 作 为 Java 开发 人 员 ， 只 需要 使 用 Driver 接口 就 可 以 
了 。 在 编程 中 要 连接 数据 库 ， 需 要 先 装 载 特定 厂商 的 数据 库 驱 动 程序 ， 不 同 的 数据 库 有 
不 同 的 装载 方法 。 例 如 : 

装载 MySQL 驱动 : Class.forName ("com.mysq1.jdbc.Driver"); 

装载 Oracle 驱动 : Class .forName ("огас1е.јарс.агіуег.Огас1ергіуег"); 


ө - 3.2.2 Connection 接口 -、 
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Connection 接口 是 与 特定 数据 库 的 连接 (会 话 )。 在 连接 中 执行 SQL 语句 并 返回 结果 。 
Connection 接口 的 常用 方法 有 以 下 几 种 。 

createStatement(): 创建 向 数据 库 发 送 SQL 的 statement 对 象 。 
prepareStatement(sql): 创建 向 数据 库 发 送 预 编译 SQL 的 PrepareSatement 对 象 。 
ртерагеСа (ва ђ): 创建 执行 存储 过 程 的 callableStatement 对 象 。 
setAutoCommit(boolean autoCommit): 设置 事务 是 否 自动 提交 。 

commit): 在 连接 上 提交 事务 。 

rollback(): 在 此 连接 上 回 滚 事务 。 


оооооо 
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© - 32.3 ОпуегМападег 类 -- 

DriverManager 类 是 管理 JDBC 驱动 程序 的 基本 服务 。 一 般 操作 Driver， 获 取 
Connection 对 象 都 是 交 给 DriverManager 类 统一 管理 .DriverManger 类 可 以 注册 和 删除 加 
载 的 驱动 程序 ， 可 以 根据 给 定 的 URL 获取 符合 URL 协议 的 驱动 Driver 或 者 是 建立 
Conenction 连接 ， 进 行 数据 库 交互 。DriverManager 类 的 方法 有 以 下 几 个 。 

О static Connection getConnection(String url): 试图 建立 到 给 定数 据 库 URL 的 连接 。 

口 static Connection getConnection(String url, Properties info): 试图 建立 到 给 定数 据 

库 URL 的 连接 。 
О static Connection getConnection(String url, String user, String password): 试图 建立 
到 给 定数 据 库 URL 的 连接 。 

О static void deregisterDriver(Driver driver): 从 DriverManager 的 列表 中 删除 一 个 

驱动 程序 。 

О static Driver getDriver(String url): 试图 查找 能 理解 给 定 URL 的 驱动 程序 。 

下 面 举例 说 明 用 DriverManager 类 连接 不 同 数据 库 的 操作 。 

连接 MySQL 数据 库 : 


Connection conn = 


DriverManager.getConnection ("jdbc:mysql://host:port/database", "user", 
"раззмога"); 


连接 Oracle 数据 库 : 


Connection conn = 


57 


Рг1уегМападег .деЕ СоппесЕ Топ ("jdbc:oracle:thin:@host:port:database", 
"user", "разѕмога"); 


连接 SQL Server 数据 库 : 


Connection conn = 
DriverManager .getConnection ("jdbc:microsoft:sqlserver://host:port; 
DatabaseName=database", "user", "раззмога"); 


e 3.2.4 Statement ELI - 


ç 
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Statement 接口 用 于 执行 静态 SQL 语句 并 返回 它 所 生成 结果 的 对 象 。 它 有 两 个 子 接 
口 ， 分 别 是 : CallableStatement 和 PreparedStatement。 
O PreparedStatement: 继承 自 Statement 接口 ， 由 PreparedStatement 创建 ， 用 于 发 
送 含有 一 个 或 多 个 参数 的 SQL 语句 。PreparedStatement 对 象 比 Statement 对 象 
的 效率 更 高 ， 并 且 可 以 防止 SQL 注入 ， 所 以 一 般 推荐 使 用 PreparedStatement。 
0 CallbleStatement: 继承 自 PreparedStatement 接口 ， 由 方法 prepareCall 创建 ， 
用 于 调用 存储 过 程 。 
Statement 常用 方法 有 以 下 几 个 。 
execute(String sql): 运行 语句 ， 返 回 是 否 有 结果 集 。 
executeQuery(String sql): 运行 select 语句 ， 返 回 ResultSet 结果 集 。 
executeUpdate(String sql): 运行 insert、update、delete 操作 ， 返 回 更 新 的 行 数 。 
addBatch(String sql) : 把 多 条 SQL 语句 放 到 一 个 批 处 理 中 。 
executeBatch(): 向 数据 库 发 送 一 批 SQL 语句 执行 。 
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ResultSet 接口 表示 数据 库 结果 集 的 数据 表 ， 通 常 是 执行 查询 数据 库 的 语句 生成 的 。 
常用 的 获得 查询 结果 的 方法 有 以 下 几 个 。 

О getString(int index)、getString(String columnName): 获得 在 数据 库 里 是 varchar, 
char 等 类 型 的 数据 对 象 。 

О getFloat(int index), getFloat(String columnName): 获得 在 数据 库 里 是 Float 类 型 
的 数据 对 象 。 

О getDate(int index), getDate(String columnName): 获得 在 数据 库 里 是 Date 类 型 
的 数据 。 

О getBoolean(int index). getBoolean(String columnName): 获得 在 数据 库 里 是 
Boolean 类 型 的 数据 。 

О getObject(int index)、getObject(String columnName): 获取 在 数据 库 里 任意 类 型 
的 数据 。 

ResultSet 还 提供 了 如 下 对 结果 集 进 行 滚动 的 方法 。 


next): 移动 到 下 一 行 。 

previous(): 移动 到 前 一 行 。 

absolute(int row): 移动 到 指定 行 。 
beforeFirst(): 移动 resultSet 的 最 前 面 。 
afterLast(): 移动 到 resultSet 的 最 后 面 。 
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3.2 节 介 绍 了 JDBC 开发 的 核心 接口 和 类 , 本 节 将 通过 具体 实例 介绍 JDBC 的 连接 方 


法 。 首 先 介 绍 数据 库 连 接 的 一 般 流程 ， 再 以 连接 MySQL 和 SQL Server 数据 库 为 例 ， 介 
绍 具体 的 使 用 方式 。 
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JDBC 应 用 程序 一 般 都 有 以 下 基本 步骤 。 

步骤 1: 注册 驱动 (只 做 一 次 )。 

步骤 2: 建立 连接 (Connection). 

步骤 3: 创建 执行 SQL HEEJ (Statement). 

步骤 4: 执行 语句 。 

步骤 S: 处 理 执行 结果 (ResultSet). 

步骤 б: 释放 资源 (依次 关闭 对 象 及 连接 : ResultSet 一 Statement — Connection), 
步骤 2 的 建立 连接 是 关键 ， 连 接 的 一 般 形式 为 : 


String url="****m"; 

Connection con=DriverManager.getConnection(url,"Login","Password"); 
或 

Connection con=DriverManager.getConnection (url); 


JDBC 借用 了 URL (Uniform Resource Location， 统 一 资源 定位 符 ) 语法 来 确定 全 球 
的 数据 库 (数据 库 URL 类 似 于 通用 的 URL), 对 由 URL 所 指定 的 数据 源 的 表示 格式 为 : 


jdbc : <subprotocal> : [ database locator] 
jdbc 指出 要 使 用 JDBC; subprotocal 是 定义 驱动 程序 的 类 型 ; database locator 是 提供 
网 络 数据 库 的 位 置 和 端口 号 〈 包 括 主机 名 、 端 口 和 数据 库 系统 名 等 )。 


不 同 厂商 的 数据 库 系统 ， 主 要 差别 在 JDBC 的 驱动 程序 及 数据 库 的 URL 格式 。 下 
面 讨论 连接 MySQL 和 SQL Server 两 种 不 同 的 数据 库 方法 。 


@- 3.3.2 MySQL 数据 库 的 连接 - 


` 
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MySQL 数据 库 是 应 用 于 网 络 的 数据 库 ， 在 网 络 方面 表现 非常 优越 ， 同 时 它 是 开放 
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式 技术 标准 的 产品 ， 市 场 占 有 率 较 高 。 本 节 以 MySQL 数据 库 为 例 ， 介 绍 JDBC 连接 的 
一 般 步骤 。 
首先 是 MySQL 驱动 的 准备 工作 ， 分 为 两 步 : 下 载 驱动 和 在 Java 工程 中 加 载 。 
(1) 下 载 MySQL 数据 库 的 JDBC 驱动 。 下 载 地 址 是 MySQL 官方 网 站 ， 如 图 3.2 
所 示 。 
€ > CÇ | 22 | https//dexmysqtcom/downloscs/tie/?i4- 474: в 218 


мома муза. | Login | пева 


псе RE 


Begin Your Download 


mysql-connector-java-5.1.45.zip 


Loi 


Гу 图 3.2  MysQL 驱动 下 载 


下 载 成 功 后 ， 得 到 mysql-connector-java-5.1.45.zip 压缩 文件 。 解 压 后 ， 发 现 
mysql-connector-java-5.1.45-binjar 文件 。 此 jar 文件 是 MySQL 数据 库 连 接 Јама 使 用 的 驱动 。 
(2) 在 Java 工程 中 引入 jar 驱动 文件 。 
右 击 工程 名 ， 选 择 “ 属 性 ”。 在 属性 中 ， 选 择 Java Build Path 选项 。 单 击 右 侧 的 Add 
External JARs 按钮 。 选 择 mysql-connector-java-5.1.45-bin.jar 所 在 路 径 ， 导 入 当前 工程 ， 
如 图 3.3 所 示 。 
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其 次 要 在 MySQL 数据 库 中 建立 数据 库 和 表 ， 准 备 好 数据 。 本 例 新 建 的 数据 库 名 称 
为 “jdbcDB 数据 库 ” jdbcDB 数据 库 中 建立 了 user # (用户 表 )。User KA 4 个 属性 ， 
设置 如 图 3.4 所 示 。 


Column Tye _ 
oid int(11) 
© пате varchar(45) 
© birthday date 
© money float 
《了 图 3.4 User 表 的 属性 


表 建 立 好 后 ， 输 入 一 些 测试 数据 ， 完 成 了 数据 的 准备 工作 。 了 驱动 和 数据 准备 好 后 ， 
下 一 步 就 是 写 JDBC 程序 ， 程 序 处 理 流程 按照 3.3.1 节 介绍 的 6 个 步骤 展开 。 例 3.1 是 
MySQL 数据 库 连 接 的 基本 步骤 ， 例 3.2 是 SQL Server 数据 库 连 接 示 例 。 

[ 例 3.1] MySQL 数据 库 连 接 示例 


SQL Server 数据 库 的 ЈОВС 驱动 需要 到 微软 的 官方 网 站 下 载 。 下 载 后 同样 需要 加 载 
到 工程 中 。 在 数据 库 中 创建 名 为 jdbcDB 的 数据 库 ， 建 立 изет 表 。 在 数据 库 中 创建 用 户 ， 
用 户 名 为 demo， 密 码 为 demo123。 设 置 用 户 demo 具有 访问 和 修改 User 表 的 权限 。 例 
3.2 是 连接 程序 。 

[ 例 3.2] SQL Server 连接 示例 


SQL Server 数据 库 连 接 示 例 较 MySQL 示例 增加 了 异常 处 理 。 两 个 程序 处 理 步骤 一 
致 ， 只 是 注册 驱动 和 URL 有 差异 。 


3.4 执行 SQL 语句 


使 用 JDBC 查询 数据 的 方法 有 三 种 ， 即 三 个 接口 : Statement、PreparedStatement 和 
CallableStatement。 Statement 继承 自 Wrapper, PreparedStatement 继承 自 Statement, 
CallableStatement 继承 自 PreparedStatement。 

Statement 接口 提供 了 执行 语句 和 获取 结果 的 基本 方法 ， 用 于 执行 不 带 参数 的 简单 
SQL 语句 ， 支 持 批量 更 新 、 批 量 删除 。Statement 每 次 执行 SQL 语句 ， 数 据 库 都 要 执行 
SQL 语句 的 编译 ， 最 好 用 于 仅 执行 一 次 查询 并 返回 结果 的 情形 。 

PreparedStatement 接口 ， 预 编译 SQL 语句 。 添 加 了 处 理 IN 参数 的 方法 ， 支持 可 变 
参数 的 SQL。 编 译 一 次 ， 执 行 多 次 ， 效 率 较 高 。PreparedStatement 接口 安全 性 好 ， 能 有 
效 防止 SQL 注入 等 问题 。 
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CallableStatement 接口 ， 继 承 自 PreparedStatement， 支 持 带 参 数 的 SQL 操作 ， 主 要 
用 于 执行 存储 过 程 。 


执行 一 个 SQL 语句 ， 首 先 需 要 创建 Statement 对 象 ， 它 封装 了 要 执行 的 SQL 语句 ， 
并 执行 SQL 语句 返回 一 个 ResultSet 对 象 。 可 以 通过 Connection 类 中 的 createStatement() 
方法 来 实现 。 


Statement 接口 提供 了 三 种 执行 SQL 语句 的 方法 :executeQuery()、executeUpdate() 和 
execute()。 具 体 使 用 哪 一 个 方法 由 SQL 语句 本 身 来 决定 。 

方法 executeQuery 用 于 产生 单个 结果 集 的 语句 ， 例 如 ，SELECT 语句 等 。 

方法 executeUpdate 用 于 执行 INSERT、UPDATE 或 DELETE 语句 以 及 SQL DDL 

(数据 定义 语言 ) 语句 ， 例 如 ，CREATE TABLE 和 DROP TABLE. INSERT, UPDATE 

或 DELETE 语句 是 修改 表 中 零 行 或 多 行 中 的 一 列 或 多 列 。executeUpdate 的 返回 结果 是 
一 个 整数 ， 表 示 受 影响 的 行 数 〈 即 更 新 数 )。 对 于 CREATE TABLE 或 DROP TABLE 等 
不 操作 行 的 语句 ，executeUpdate 的 返回 值 为 零 。 

方法 execute 用 于 执行 返回 多 个 结果 集 、 多 个 更 新 数 或 二 者 组 合 的 语句 , 使 用 较 少 。 

改写 例 3.1， 增 加 异常 处 理 ， 并 使 用 Statement 实现 没有 条 件 和 参数 的 简单 查询 。 

[ 例 3.3] Statement 简单 查询 


JDBC 规范 支持 宏 语 句 ， 人 允许 一 个 语句 使 用 不 同 的 参数 重复 执行 ， 这 由 
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PreparedStatement 接口 支持 完成 。PreparedStatement 是 预 编 译 方式 执行 SQL 语句 。 由 于 
Statement 对 象 在 每 次 执行 SQL 语句 时 都 将 该 语句 传 给 数据 库 ， 如 果 需 要 多 次 执行 同一 
条 SQL 语句 , 这 样 操作 将 导致 执行 效率 特别 低 。 此 时 可 以 采用 PreparedStatement Я] Zf 
Ж SQL 语句 。 如 果 数 据 库 支 持 预 编译 ， 它 可 以 将 SQL 语句 传 给 数据 库 做 预 编译 ， 以 后 
每 次 执行 该 SQL 语句 时 ,可 以 提高 访问 速度 ; 但 如 果 数 据 库 不 支持 预 编 译 , 将 在 语句 执 
行 时 才 传 给 数据 库 ， 其 效果 类 似 于 Statement 对 象 。 另 外 ，PreparedStatement 对 象 的 SQL 
语句 还 可 以 接收 参数 ， 可 以 用 不 同 的 输入 参数 来 多 次 执行 编译 过 的 语句 ， 较 Statement 
灵活 方便 。 例 3.4 使 用 PreparedStatement 实现 有 条 件 的 查询 。 
[ 例 3.4] PreparedStatement 处 理 有 条 件 的 查询 


JDBC 中 的 所 有 参数 都 由 “?” 符 号 作为 占 位 符 ， 这 被 称 为 参数 标记 。 在 执行 SQL 
语句 之 前 ， 必 须 为 每 个 参数 ( 占 位 符 ) 提 供 值 。 
SetX х X0 方 法 将 值 绑 定 到 参数 ， 其 中 ，X x X 表 示 要 绑 定 到 输入 参数 的 值 的 Java 


数据 类 型 。 如 果 忘 记 提供 绑 定 值 ， 则 将 会 抛 出 一 个 SQLException. 

每 个 参数 标记 是 其 顺序 位 置 引用 。 第 一 个 标记 表示 位 置 1， 下 一 个 标记 表示 位 置 2, 
等 等 。 该 方法 与 Java 数组 索引 不 同 〈 它 不 从 0 开始 )。 

所 有 Statement 对 象 与 数据 库 交互 的 方法 execute()、executeQuery() 和 executeUpdate() 
也 可 以 用 于 PreparedStatement 对 象 。 但 是 ， 这 些 方法 被 修改 为 可 以 使 用 输入 参数 的 SQL 
语句。 

建议 尽量 使 用 PreparedStatement 语句 , 因为 数据 库 能 够 把 SQL 语句 编译 成 只 需要 提 
供 参 数 就 能 重复 执行 的 语句 ， 便 于 提高 执行 速度 。 例 3.5 使 用 PreparedStatement 语句 向 
数据 库 插入 一 条 数据 。 

[ 例 3.5] 使 用 PreparedStatement 添加 数据 


运行 结果 如 图 3.5 所 示 ， 数 据 库 中 新 增 了 一 条 记录 。 
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35 ,运行 结果 


此 例 中 日 期 的 处 理 需要 注意 。 数 据 库 中 支持 的 日 期 类 型 是 java sql.Date, 通常 使 用 的 
期 类 型 是 java.util.Date。 两 个 格式 不 一 样 ， 需 要 做 转换 。 


--3.4.3 使 用 CallableStatement -、 

类 似 Connection 对 象 创建 Statement 和 PreparedStatement 对 象 ， 可 以 使 用 同样 的 方 
式 创建 CallableStatement 对 象 ， 该 对 象 将 用 于 执行 对 数据 库存 储 过 程 的 调用 。 

存储 过 程 是 一 种 特殊 的 SQL 语句 , 用 于 对 数据 库 进行 操作 。 存 储 过 程 放 在 数据 库 中 ， 
可 以 把 复杂 的 查询 与 客户 端 隔离 ， 而 只 给 客户 提供 必要 的 查询 接口 。 使 用 存储 过 程 的 优 
点 是 性 能 高 。 存 储 过 程 在 数据 库 服 务 器 上 执行 ,距离 数据 最 近 ， 比 直接 发 送 SQL 语句 速 
度 要 快 得 多 。 

MySQL 中 存储 过 程 的 参数 有 以 下 三 种 类 型 。 

in 参数 的 特点 是 : 只 读 不 写 。 用 于 读 取 外 部 变量 值 。 

ош 参数 的 特点 是 : 只 写 入 不 读 取 。 不 读 取 外 部 变量 值 ， 在 存储 过 程 执行 完毕 后 
保留 新 值 。 

inout 参数 的 特点 是 : 既 读 又 写 。 读 取 外 部 变量 值 , 在 存储 过 程 执行 完毕 后 保留 新 值 。 

PreparedStatement 对 象 只 使 用 in 参数 。CallableStatement 对 象 可 以 使 用 所 有 三 个 。 

JDBC 中 调用 存储 过 程 的 语法 如 下 所 示 。“? ”表示 参数 的 占 位 符 ， 调 用 存储 过 程 使 
用 “{ }” 表 示 。 


{ call ШЙ О } // 不 带 参数 的 存储 过 程 
rca // 调 用 带 参数 的 存储 过 程 
ОЕ isa iiipin) // 有 返回 结果 的 存储 过 程 调用 


下 面 分 别 介绍 不 同 存储 过 程 的 调用 方法 。 首 先 ， 要 在 数据 库 中 写 好 存储 过 程 。 然 后 
在 Java 程序 中 调用 已 有 的 存储 过 程 。 

数据 库 中 创建 好 了 不 带 参数 的 存储 过 程 ， 存 储 过 程 名 称 为 mypro0， 内 容 如 下 。 

delimiter // 


CREATE PROCEDURE mypro() 
BEGIN 


[ 例 3.6] 简单 存储 过 程 调 用 
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运行 结果 如 图 3.6 所 示 。 


编号 姓名 生日 

| mike 1990-10-29 100.32 
2 tom 1998-03-06 300.0 
3 Joan 1996-12-27 3772.6 
4 peter 1990-10-01 399.3 
5 James 2017-12-06 3980.32 
6 Tim 2000-09-13 3980.32 

17 图 3.6 ETAR 


没有 参数 的 存储 过 程 调用 与 一 般 语 句 的 调用 差别 不 大 。 只 需要 修改 SQL 语句 。 有 
参数 时 ，SQL 语句 中 用 “? ” 占 位 ， 表 示 输 入 参数 。 然 后 用 setX x X00 方法 设置 输入 
参数 的 值 。 

MySQL 数据 库 中 已 经 创建 了 有 输入 参数 ON 型 参数 ) 的 存储 过 程 ， 名 称 为 
userwithbirthday， 需 要 输入 生日 ， 返 回 比 输入 生日 日 期 大 的 结果 集 。 存 储 过 程 内 容 如 下 。 


[ 例 3.7] 调用 有 输入 参数 的 存储 过 程 示例 
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运行 结果 如 下 。 


某 些 存 储 过 程 可 能 会 返回 输出 参数 ， 这 时 在 执行 这 个 存储 过 程 之 前 ， 必 须 使 用 
CallableStatement 的 registerOutParameter 方法 首先 登记 输出 参数 , 在 registerOutParameter 
方法 中 要 给 出 输出 参数 的 相应 位 置 以 及 输出 参数 的 SQL 数据 类 型 。 在 执行 完 存储 过 程 
以 后 ， 必 须 使 用 getX x X 方 法 来 获得 输出 参数 的 值 ， 并 在 getX x xX 方法 中 要 指出 获得 
哪 一 个 输出 参数 (通过 序号 来 指定 ) 的 值 。 

例如 ， 存 储 过 程 predou 有 一 个 输入 参数 并 返回 一 个 输出 参数 ， 类 型 分 别 为 
VARCHAR 和 FLOAT。 在 执行 完毕 后 ， 分 别 使 用 getFloat() 方 法 来 获得 相应 的 值 。 有 输 
入 和 输出 参数 的 存储 过 程 内 容 如 下 。 


[ 例 3.8] 调用 有 输入 和 输出 参数 的 存储 过 程 
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事务 〈Transaction) 是 并 发 控制 的 单元 ， 是 用 户 定义 的 一 个 操作 序列 。 这 些 操 作 要 
么 都 做 ， 要 么 都 不 做 ， 是 一 个 不 可 分 割 的 工作 单位 。 事 务 中 有 两 个 关键 词 ， Commit 和 
Rollback。Commint 表示 提交 ， 即 提交 事务 的 所 有 操作 。 即 事务 中 所 有 对 数据 的 更 新 写 
到 磁盘 上 的 物理 数据 库 中 去 ， 事 务 正常 结束 。Rollback 表示 回 深 ， 是 在 事务 运行 的 过 
程 中 发 生 了 某 种 故障 ， 事 务 不 能 继续 进行 ， 系 统 将 事务 中 对 数据 库 的 所 有 已 完成 的 操作 
全 部 撤销 ， 返 回 到 事务 开始 的 状态 。 

JDBC 的 数据 库 操 作 中 关于 事务 操作 的 方法 都 位 于 接口 java.sql.Connection 中 。 
在 JDBC 中 ， 事 务 操 作 默 认 是 自动 提交 。 操 作成 功 后 ， 系 统 将 自动 调用 commit() 方 
法 提交 ， 否 则 将 调用 rollbackO 回 退 。 可 以 通过 调用 setAutoCommit(false) 来 禁止 自 
动 提交 。 

JDBC 处 理事 务 时 ， 需 要 使 用 Java 语言 中 的 Connection 对 事务 进行 操作 ， 具 体 的 事 
务 对 应 一 个 数据 库 连 接 。 例 3.9 中 以 银行 转账 为 例 演示 JDBC 中 的 事务 处 理 。 账 户 A 转 
MK 100 元 到 账户 B。 数 据 更 新 分 为 两 步 ， 账 户 A 余额 减少 ， 账 户 В 余额 增加 。 


El 
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publicstaticvoid main(String[] args) throws SQLException ( 


test(); 
) 
) 


使 用 事务 处 理 两 条 更 新 语句 , 要 么 都 成 功 执行 , 要 么 都 不 执行 , 保证 了 数据 的 一 致 性 。 


1. 使 用 ВС 连接 MySQL 数据 库 。 
2. 将 例 3.1 中 的 URL 改 为 使 用 下 地 址 。 
3. ResultSet 是 否 有 容量 限制 ? 
4. 下 面 的 描述 错误 选项 是 ( ә. 
А. Statement 的 executeQuery() 方 法 会 返 
回 一 个 结果 集 
B. Statement 的 executeUpdate() 方 法 会 返 
回 是 否 更 新 成 功 的 boolean 值 
С. 使 用 ResultSet 中 的 getString0 可 以 获 
得 一 个 对 应 于 数据 库 中 char 类 型 的 值 
D. ResultSet 中 的 next0 方 法 会 使 结果 集 
中 的 下 一 行 成 为 当前 行 
5. 在 JDBC 中 使 用 事务 , 想 要 回 滚 事务 的 方 


法 是 ( )。 


А. Connection 的 commit() 
B. Connection 的 setAutoCommit() 
C. Connection 的 rollback) 
D. Connection 的 close() 
6. 在 JDBC 编程 中 执行 完 下 列 SQL 语句 : 


SELECT пате, гапк, serialNo FROM employee, 能 
得 到 rs 的 第 一 列 数据 的 代码 是 哪 两 个 ? С ) 


А. rs.getString(0); 


B. rs.getString("name"); 
С. rs.getString(1); 
D. rs.getString("ename"); 
7. 下 列 选项 有 关 ResultSet 说 法 错误 的 是 哪 


一 个 ? ( ) 

A. ResultSet 是 查询 结果 集 对 象 ， 如 果 
JDBC 执行 查询 语句 没有 查询 到 数据 ， 
那么 ResultSet 将 会 是 null 值 

В. 判断 ResultSet 是 否 存 在 查询 结果 集 ， 
可 以 调用 它 的 next0 方 法 

С. 如 果 Connection 对 象 关闭 ， 那 么 
ResultSet 也 无 法 使 用 


D. 如 果 一 个 事物 没有 提交 ， 那 么 
ResultSet 中 看 不 到 事物 过 程 中 的 临时 
数据 

8. 执行 SELECT COUNT(*) FROM emp: 这 


条 SQL 语句 , 如 果 员 工 表 中 没有 任何 数据 ,那么 
ResultSet 中 将 会 是 什么 样子 ?( š 


A. null 
B. 有 数据 
C. 不 为 null， 但 是 没有 数据 


JDBC 高 级 技术 


41 JDBC 2.0 API ~ 


JDBC 2.0 АРІ 包括 两 部 分 : JDBC 2.0 核心 АРІ 和 JDBC 2.0 标准 扩展 АРІ. 核心 API 
在 java.sql 包 中 ， 这 是 JDBC 1.0 版 本 中 就 已 经 实现 的 基本 功能 。 而 标准 扩展 API 在 
javax.sql 包 中 , 包含 JDBC 2.0 规范 中 新 增加 的 一 些 接口 。 当 然 , JDBC 2.0 也 对 原来 版 本 
的 java.sql 包 中 的 部 分 API 做 了 一 些 改动 ， 虽 然 改动 不 是 很 大 ， 原 来 JDBC 1.0 的 程序 可 
以 不 加 修改 即 可 在 JDBC 2.0 上 运行 。 
JDBC 2.0 的 扩展 API 中 增加 了 一 些 数据 访问 和 数据 源 访问 的 重大 功能 , 其 中 有 一 些 
主要 用 来 进行 企业 级 应 用 开发 。 通 过 JDBC 2.0 的 新 扩展 包 , JDBC 提供 了 一 个 在 Java F 
台 上 通用 的 数据 访问 方法 。 
JDBC 2.0 主要 包括 以 下 两 个 包 。 
О java.sql 包 , 该 包 中 包含 JDBC 2.0 的 核心 API. 它 包 括 原来 的 JDBC API (JDBC 
1.0 版 本 )， 再 加 上 一 些 新 的 2.0 版 本 的 API。 这 个 包 在 Java 2 Platform SDK 里 
面 有 。 

口 javax.sql &, 该 包 中 包含 DBC 2.0 的 标准 扩展 API。 这 个 包 是 一 个 全 新 的 ， 在 
Java 2 Platform SDK, Enterprise Edition 里 面 单独 提供 。 

JDBC 2.0 的 核心 API 包括 JDBC 1.0 的 API， 并 在 此 基础 上 增加 了 一 些 功能 ， 对 某 
些 性 能 做 了 增强 ， 使 Java 语言 在 数据 库 计 算 的 前 端 提供 了 统一 的 数据 访问 方法 ， 同 时 效 
率 也 得 到 了 提高 .JDBC 是 向 后 兼容 的 ,JDBC 1.0 的 程序 可 以 不 加 修改 地 运行 在 JDBC 2.0 
上 。 但 是 ， 如 果 程 序 中 用 到 了 JDBC 2.0 的 新 特性 ， 就 必须 要 运行 在 JDBC 2.0 版 本 上 。 

概括 来 说 ，JDBC 核心 АРГ 的 新 特性 在 两 个 方面 做 了 工作 ， 一 个 是 支持 一 些 新 的 功 
ВЕ, 另 一 个 就 是 支持 SQL3 的 数据 类 型 。 在 支持 新 功能 方面 , 主要 包括 结果 集 ResultSet) 
可 以 向 后 滚动 、 批 量 更 新 数据 等 。 另 外 ， 还 提供 了 Unicode 字符 集 的 字符 流 操 作 。 而 在 
支持 SQL3 的 数据 类 型 方面 ， 主 要 包括 新 的 SQL3 数据 类 型 ， 以 及 增加 了 对 持久 性 对 象 
的 存储 。 

为 了 对 数据 的 存 取 、 操 作 更 加 方便 ，JDBC 的 新 特性 使 应 用 程序 的 开发 变 得 更 容易 
了 。 例 如 ， 数 据 块 的 操作 能 够 显著 地 提高 数据 库 访问 的 性 能 。 新 增加 的 BLOB (Binary 
Large Object， 二 进 制 大 对 象 )、CLOB (Character Large Object， 字 符 大 对 象 ) 和 数组 接 
口 能 够 使 应 用 程序 操作 大 块 的 数据 类 型 ， 而 客户 端 不 需要 进行 额外 的 特殊 处 理 。 这 样 ， 
就 显著 地 提高 了 内 存 的 使 用 效率 。 

JDBC 2.0 的 标准 扩展 API 主要 包括 下 面 几 个 方面 。 

口 “ DataSource 接口 : 和 Java 名 字 目 录 服 务 (JNDI) 一 起 工作 的 数据 源 接口 。 

О Connection pooling (连接 池 ): 可 以 重复 使 用 连接 ， 而 不 是 对 每 个 请 求 都 使 用 一 

个 新 的 连接 。 
О Distributed transaction ( 分 布 式 的 事务 ): 在 一 个 事务 中 涉及 多 个 数据 库 服务 器 。 
О RowSets: 是 一 个 JavaBean 组 件 ， 其 中 包含 查询 的 结果 集 ， 主 要 用 来 将 数据 传 
给 瘦 客 户 ， 或 者 提供 一 个 可 以 滚动 的 结果 集 。 
以 下 分 而 述 之 。 


--411 DataSource 接口 -， 

DataSource 接口 是 一 个 更 好 的 连接 数据 源 的 方法 。 在 JDBC 1.0 中 ， 一 般 调 用 
DriverManager 类 的 getConnection 方法 (有 重 载 的 多 个 版 本 ) 来 获得 对 指定 数据 来 源 的 
连接 (Connection) 对 象 。JDBC 2.0 中 推出 了 一 种 替代 的 方法 一 一 基于 DataSource 的 实 
现 方法 ， 代 码 变 得 更 小 巧 精致 ， 也 更 容易 控制 。 

一 个 DataSource 对 象 代表 了 一 个 真正 的 数据 源 。 根据 DataSource 的 实现 方法 , 数据 
源 既 可 以 是 关系 数据 库 、Excel 电子 表格 ,也 可 以 是 一 个 表格 形式 的 文件 .一 个 DataSource 
对 象 已 经 注册 到 命名 服务 (JNDI) 之 后 , 应 用 程序 就 可 以 通过 命名 服务 来 获得 DataSource 
对 象 ， 并 用 它 来 产生 一 个 与 DataSource 代表 的 数据 源 之 间 的 连接 (Connection) 对 象 。 

关于 数据 源 的 信息 以 及 如 何 来 定位 数据 源 ， 例 如 ， 数 据 库 服 务 器 的 名 称 、 在 哪 台 机 
器 上 、 端 口号 等 ， 都 包含 在 DataSource 对 象 的 属性 中 了 。 这 样 ， 对 应 用 程序 的 开发 来 说 
就 更 简便 ， 因 为 不 再 需要 硬性 地 把 驱动 的 名 称 写 到 程序 里 面 去 。 通 常 驱动 名 称 中 都 包含 
驱动 提供 商 的 名 字 ， 而 使 用 DriverManager 类 时 通常 就 是 这 么 做 的 。 如 果 数 据 源 要 改变 
到 另 一 个 数据 库 ， 数 据 访 问 层 的 代码 也 很 容易 做 修改 。 所 需要 做 的 修改 只 是 更 改 
DataSource 的 相关 属性 ， 而 使 用 DataSource 对 象 的 代码 则 不 需要 做 任何 改动 ， 这 样 就 降 
低 了 耦合 ， 提 高 了 程序 的 可 维护 性 。 

一 般 情况 下 ， 由 系统 管理 员 或 者 有 相应 权限 的 人 来 配置 DataSource 对 象 。 配 置 
DataSource, 包括 设 定 DataSource 的 属性 , 然后 将 它 注册 到 JNDI 命名 服务 中 去 。 在 注册 
DataSource 对 象 的 过 程 中 , 系统 管理 员 需 要 把 DataSource 对 象 和 一 个 逻辑 名 称 关联 起 来 。 
名 称 可 以 是 任意 的 ， 通常 取 能 代表 数据 源 并 且 容 易 记 忆 的 名 称 。 例 如 ， 名 称 可 以 是 
ecommerceDB。 按 照 惯 例 ， 逻 辑 名 称 通常 都 在 jdbc 的 子 上 下 文中 。 这 样 ， 逻 辑 名 称 的 全 
名 就 是 jdbc/ ecommerceDB。 

一 旦 配置 好 了 数据 源 对 象 ， 应 用 程序 开发 人 员 就 可 以 用 它 来 获得 一 个 与 数据 源 的 连 
接 对 象 。 下 面 的 代码 片段 展示 了 如 何 用 JNDI 上 下 文 获得 一 个 数据 源 对 象 ， 然 后 如 何 用 
数据 源 对 象 产生 一 个 与 数据 源 的 连接 ， 其 中 前 两 行 调用 了 JNDI 的 API， 第 三 行 调 用 了 
JDBC 的 API。 


Context ctx = new InitialContext() 7 

DataSource ds = (DataSource) сЕх.1ооКкир("јабс/есоттегсерв"); 

Connection соп = ds.getConnection ("username", "password"); 

在 一 个 基本 的 DataSource 实现 中 ,DataSource 的 getConnection 方法 返回 的 Connection 
对 象 和 用 DriverManager 的 getConnection 方法 返回 的 Connection 对 象 是 完全 相同 的 。 考 虑 
到 DataSource 带 来 的 便利 ， 因 此 推荐 通过 DataSource 对 象 来 获得 一 个 Connection 对 象 。 
基于 JDBC 2.0 技术 的 数据 库 驱 动 都 包含 一 个 基本 的 DataSource 实现 ， 因 此 在 应 用 程序 中 
可 以 很 容易 地 使 用 这 些 驱动 程序 。 
对 于 普通 的 应 用 程序 开发 人 员 ， 是否 使 用 DataSource 对 象 是 一 个 备 选 方案 。 但 是 ， 对 
于 那些 需要 使 用 连接 池 或 分 布 式 事务 的 应 用 程序 开发 人 员 来 说 ， 就 必须 通过 DataSource 
对 象 来 获得 Connection 对 象 。 
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ЖЗ RERE УНЕ 
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•-41.2 Connection pooling (连接 池 ) - 

连接 池 的 机 制 是 : 当 应 用 程序 关闭 一 个 Connection 对 象 时 ， 这 个 连接 对 象 被 连接 池 
回收 ， 而 不 是 被 销毁 ， 因 为 建立 一 个 连接 对 象 是 很 费 资源 的 操作 。 如 果 能 把 回收 的 连接 
对 象 重新 利用 ， 会 大 大 降低 新 创建 连接 对 象 的 数目 ， 从 而 显著 地 提高 程序 的 性 能 。 

例如 ， 应 用 程序 需要 获得 一 个 名 称 为 ecommerceDB 的 DataSource 的 连接 对 象 ， 使 
用 连接 池 获得 连接 对 象 的 代码 如 下 。 

Context ctx = new Іпіііа1Сопіех+ (); 


DataSource ds = (DataSource) ctx.lookup ("јабс/есоттексерв") ; 
Connection con = ds.getConnection ("username", "password"); 


除了 逻辑 名 称 之 外 ， 其 代码 和 上 面 举 的 例子 的 代码 是 一 样 的 。 逻 辑 名 称 不 同 ， 就 可 
以 连接 到 不 同 的 数据 库 。 DataSource 对 象 的 getConnection 方法 返回 的 Connection 对 象 是 
否 是 一 个 连接 池 中 的 连接 ， 这 完全 取决 于 DataSource 对 象 的 实现 方法 。 如 果 DataSource 
对 象 的 实现 是 与 一 个 支持 连接 池 的 中 间 层 的 服务 器 一 起 工作 的 ,那么 该 DataSource 对 象 
就 会 自动 地 返回 连接 池 中 的 连接 对 象 ， 而 这 个 连接 对 象 也 是 可 以 重复 使 用 的 。 

是 否 使 用 连接 池 获得 一 个 连接 ， 从 应 用 程序 的 代码 上 是 无 法 分 辨识 别 的 。 在 获得 的 
Connection 对 象 的 使 用 上 也 并 没有 什么 特殊 之 处 。 需 要 注意 的 是 , 务必 在 try-catch-finally 
结构 里 的 finally 语句 块 中 来 关闭 连接 对 象 。 在 finally 中 关闭 连接 对 象 是 一 个 好 的 编程 习 
惯 。 这 样 ， 即 使 有 某 个 方法 抛 出 了 异常 ，Connection 对 象 也 会 被 关闭 并 回收 到 连接 池 中 
去 ， 代 码 如 下 所 示 。 

tryt 

// 数 据 访问 代码 

}catch () ( 

// 异 常 处 理 代码 

}finally { 

if (con!=null) con.close(); 

} 


@ -4:1:3 一 分 布 式 事务 -- 


获得 一 个 用 来 支持 分 布 式 事务 的 连接 对 象 与 从 连接 池 中 获得 连接 对 象 是 很 相似 的 。 
同样 ,不 同 之 处 仅 在 于 DataSource 的 实现 上 的 差异 ， 而 在 应 用 程序 中 获得 连接 对 象 的 方 
式 上 则 并 没有 特殊 之 处 。 假 设 DataSource 的 实现 可 以 与 支持 分 布 式 事务 中 间 层 服务 器 一 
起 工作 ， 则 获得 连接 对 象 的 代码 还 是 如 下 所 示 。 

Context ctx = new InitialContext(); 


DataSource ds = (DataSource) ctx.lookup ("jdbc/ecommerceDB") ; 
Connection con = ds.getConnection ("username", "password"); 


由 于 性 能 上 的 原因 ， 如 果 一 个 DataSource 能 够 支持 分 布 式 的 事务 ， 它 同样 也 可 以 支 
持 连 接 池 管理 。 

从 应 用 程序 设计 者 的 观点 来 看 ， 是 否 支持 分 布 式 的 事务 的 连接 对 它 来 说 没什么 不 
同 ， 唯 一 的 不 同 是 在 事务 的 边界 (开始 一 个 事务 的 地 方 和 结束 一 个 事务 的 地 方 ) FE. 一 
个 事务 的 开始 和 结束 都 是 由 事务 服务 器 来 控制 的 。 应 用 程序 不 应 该 做 任何 可 能 妨碍 服务 
的 事情 。 应 用 程序 不 能 够 直接 调用 事务 提交 (commit) RER (rollback) 操作 ， 也 不 能 
够 使 用 事务 的 自动 提交 模式 (auto-commit mode)， 即 在 数据 库 操作 完成 的 时 候 自动 地 调 
用 commit 或 者 rollback )。 

在 一 个 连接 参与 了 分 布 式 事务 的 时 候 ， 下 面 的 代码 是 在 应 用 程序 中 不 能 做 的 (conn 
表示 支持 分 布 式 事务 的 连接 Connection 对 象 )。 


conn.commit (); 
conn.rollback(); 
conn.setAutoCommit (true); 


对 于 普通 的 Connection 对 象 来 说 ， 默 认 的 提交 方式 即 为 auto-commit 模式 。 而 对 于 
支持 分 布 式 事务 的 Connection 对 象 来 说 ， 默 认 值 则 不 是 auto-commit 模式 。 需 要 注意 的 
是 ， 即 使 Connection 对 象 是 支持 事务 的 ， 它 也 可 以 用 于 没有 事务 的 情况 。 关 于 事务 边界 
的 限制 只 有 在 分 布 式 事务 的 情况 下 才 是 成 立 的 。 

配置 支持 连接 池 的 DataSource 时 ， 涉 及 配置 ConnectionPool-DataSource 对 象 。 这 个 
对 象 是 由 三 层 体系 结构 中 的 中 间 层 来 进行 连接 池 的 管理 。 同 样 地 ， 在 配置 支持 分 布 式 事务 
的 时 候 ， 需 要 配置 XADataSource。XADataSource 是 中 间 层 用 来 管理 分 布 式 事务 的 对 象 。 
ConnectionPool-DataSource 和 XADataSource 是 由 驱动 提供 商 提供 的 ， 对 应 用 程序 的 设计 
者 来 说 是 透明 的 .和 基本 的 Data Source 一 样 ,系统 管理 员 来 配置 ConnectionPoolDataSource 
和 XADataSource 对 象 。 


ө- 444 -. 


结果 集 对 象 是 一 行 行 数据 的 容器 。 根 据 其 目的 ， 可 以 通过 多 种 方法 实现 。RowSet 
及 其 相关 的 接 口 与 DBC2.0 的 标准 扩展 API 有 点 儿 不 同 , 它们 并 不 包含 在 JDBC 驱动 程 
序 中 ，RowSet 是 基于 驱动 程序 来 实现 的 ， 可 以 由 其 他 任何 公司 /组 织 来 实现 。 
任何 类 型 的 rowset 都 实现 了 RowSet 接口 ，RowSet 接口 扩展 了 ResultSet 接口 。 这 
FÉ RowSet 对 象 就 有 了 ResultSet 对 象 所 有 的 功能 , 包括 : 能 够 通过 getX x X 方 法 得 到 数 
据 库 中 的 某 列 值 、 通 过 updatex x X 方 法 可 以 修改 某 列 值 、 可 以 移动 光标 、 使 当前 行 变 
为 另 一 行 等 。 

当然 ， 让 人 更 感 兴趣 的 是 RowSet 接口 提供 的 新 功能 。 作 为 一 个 JavaBean 组 件 ， 

RowSet 对 象 可 以 增加 或 者 删除 一 个 listener 〈 监 听 者 )， 也 可 以 get 或 set 其 属性 值 。 在 
RowSet 对 象 的 属性 中 ， 有 一 个 类 型 为 String、 表 示 对 数据 库 查 询 请 求 的 属性 。RowSet 
接口 定义 了 设 定 该 参数 的 方法 ， 也 提供 了 执行 这 个 请 求 的 方法 。 这 意味 着 RowSet 对 象 
能 够 执行 查询 请 求 ， 也 可 以 根据 该 查询 得 到 的 结果 集 进 行 计算 。 同 时 ， 由 于 RowSet 也 
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可 以 根据 任何 表格 数据 源 进行 计算 ， 因 此 它 并 不 局 限于 关系 数据 库 。 

从 数据 源 得 到 数据 之 后 ，RowSet 对 象 可 以 和 数据 源 断 开 连 接 ，RowSet 对 象 也 可 以 被 
序列 化 。 这 样 ，RowSet 就 可 以 通过 网 络 传递 给 瘦 客 户 端 。RowSet 可 以 被 重新 连接 到 数据 
源 , 这 样 , 做 的 修改 就 可 以 存 回 到 数据 源 中 去 。 如 果 产 生 了 一 个 监听 者 (listener), 当 RowSet 
的 当前 行 移动 或 者 数据 被 修改 的 时 候 ， 监 听 者 就 会 收 到 通知 。 例 如 ， 图 形 用 户 界面 组 件 可 
以 注册 成 为 监听 者 ， 当 RowSet 更 改 的 时 候 ， 图 形 用 户 界面 接 到 通知 ， 就 可 以 修改 界面 ， 
以 便 与 该 界面 所 监听 (有 时 候 也 称 为 绑 定 ) 的 RowSet 对 象 中 的 数据 保持 一 致 。 

与 CachedRowSet 类 不 同 的 是 ，JDBCRowSet 类 总 是 保持 一 个 和 数据 源 的 连接 。 这 
FÉ, TE ResultSet 外 围 简单 地 增加 了 一 层 ， 使 基于 JDBC 技术 的 驱动 程序 看 起 来 就 像 是 一 
个 简单 的 JavaBean 组 件 一 样 。 

总 体 上 来 说 ，JDBC 2.0 标准 扩展 API 通过 将 DataSource 注册 到 INDI 名 称 服务 上 ， 
将 JDBC 技术 扩展 为 一 个 全 新 的 概念 , 使 应 用 程序 的 代码 更 加 精巧 、 易 于 控制 。 新 的 АРГ 
增加 了 对 连接 池 和 分 布 式 事务 的 支持 。 最 后 ， 还 使 Java 应 用 程序 可 以 在 网 络 上 传播 结果 
集 对 象 (RowSet)， 使 不 可 以 滚动 的 ResultSet 变 成 了 可 以 滚动 的 RowSet。 


在 最 原始 的 数据 访问 层 编程 技术 中 ， 用 户 的 每 次 请 求 都 需要 向 数据 库 获 得 一 个 新 的 
连接 对 象 ， 而 获得 一 个 新 的 数据 库 连接 对 象 通常 需要 消耗 相对 较 大 的 资源 ， 创 建 时 间 也 
较 长 。 如 果 一 个 基于 B/S 的 系统 一 天 有 10 万 次 的 点 击 量 , 那么 数据 库 服务 器 就 需要 创建 
10 万 次 连接 , 这 对 数据 库 的 资源 是 极 大 的 浪费 , 同时 也 极 易 造 成 数据 库 服务 器 内 存 溢出 。 
在 应 用 程序 中 ， 每 次 都 重新 获取 新 的 连接 对 象 的 情况 如 图 4.1 所 示 。 
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O 图 4.1 。 应 用 程序 直接 获取 数据 库 连 接 对 象 


60421 连接 池 的 基本 概念 -， 

数据 库 连接 是 一 种 关键 的 、 有 限 的 、 昂 贵 的 资源 ， 这 一 点 在 多 用 户 的 Web 应 用 程序 
中 体现 得 尤为 突出 。 对 数据 库 连接 的 管理 能 显著 地 影响 到 整个 应 用 程序 的 伸缩 性 和 健壮 
性 ， 影 响 到 程序 的 性 能 指标 。 数 据 库 连 接 池 是 为 解决 这 个 问题 提出 的 一 种 技术 方案 。 数 
据 库 连接 池 负 责 分 配 、 管 理 和 释放 数据 库 连 接 ， 人 允许 应 用 程序 重复 使 用 一 个 现 有 的 数据 


库 连 接 ， 而 不 是 每 一 次 都 重新 建立 一 个 新 的 数据 库 连 接 对 象 ， 如 图 4.2 所 示 。 
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ЁЎ 图 4.2 _, 应 用 程序 通过 连接 池 获 得 数据 库 连 接 对 象 


数据 库 连接 池 在 初始 化 时 将 创建 一 定数 量 的 数据 库 连 接 对 象 放 到 连接 池 中 ， 这 些 数 
据 库 连接 对 象 的 数量 是 由 最 小 数据 库 连 接 数 来 设 定 的 。 无 论 这 些 数据 库 连 接 对 象 是 否 被 
使 用 ， 连 接 池 都 将 一 直 保证 至 少 拥有 这 么 多 的 连接 数量 。 连 接 池 的 最 大 数据 库 连 接 数 量 
限定 了 这 个 连接 池 可 以 包含 的 最 大 连接 数量 ， 当 应 用 程序 向 连接 池 请 求 的 连接 数 超过 最 
大 连接 数量 时 ， 这 些 请 求 将 被 加 入 到 等 待 队列 中 。 

数据 库 连接 池 的 最 小 连接 数 和 最 大 连接 数 的 设置 要 考虑 到 以 下 几 个 因素 。 

(1) 最 小 连接 数 是 连接 池 一 直 保持 的 数据 库 连接 ， 所 以 如 果 应 用 程序 对 数据 库 连 
接 的 使 用 量 不 大 ， 将 会 有 大 量 的 数据 库 连 接 资源 被 浪费 。 

(2) 最 大 连接 数 是 连接 池 能 申请 的 最 大 连接 数 ， 如 果 数 据 库 连接 请 求 超过 最 大 连 
接 数 ， 后 面 的 数据 库 连 接 请 求 将 被 加 入 到 等 待 队 列 中 ， 这 会 影响 以 后 的 数据 库 操作 。 

(з) 如 果 最 小 连接 数 与 最 大 连接 数 相差 很 大 ， 那 么 最 先 发 起 连接 请 求 的 应 用 程序 
将 会 获 利 ， 之 后 超过 最 小 连接 数量 的 连接 请 求 等 价 于 建立 一 个 新 的 数据 库 连 接 。 不 过 ， 
这 些 大 于 最 小 连接 数 的 数据 库 连接 在 使 用 完 不 会 马上 被 释放 《〈 即 断 开 与 数据 库 的 连接 )， 
它们 将 被 重新 放 回 到 连接 池 中 等 待 重复 使 用 。 


@--4.2.2 编写 数据 库 连接 池 -， 


编写 连接 池 需 实现 DataSource 接口 〈 在 java.sql 包 中 )。DataSource 接口 中 定义 了 两 
个 重 载 的 getConnection 方法 : 
Connection getConnection() 
Connection деЁСоппесііоп (String пате, String password) 
实现 DataSource 接口 ， 并 实现 连接 池 功 能 的 步骤 主要 如 下 。 
(1) 在 DataSource 构造 方法 中 批量 创建 数据 库 连 接 对 象 ， 并 把 创建 的 连接 对 象 加 


第 

4 
章 
© 
四 
O 
高 
级 
技 
术 


入 到 一 个 集合 (例如 Collection 或 Мар 接口 的 对 象 ) HRP. 

(2) 实现 getConnection 方法 ， 让 getConnection 方法 每 次 被 调用 时 ， 从 步骤 1 中 的 
集合 对 象 里 取出 一 个 Connection 对 象 并 返回 。 

G) 当 应 用 程序 使 用 完 Connection 对 象 之 后 ， 调 用 Connection 对 象 的 close() 方 法 
HF, Collection 对 象 应 保证 将 自己 返回 到 步骤 1 中 的 集合 对 象 里 ， 而 不 是 把 Connection 
对 象 还 给 数据 库 〈 即 释放 与 数据 库 的 连接 )。Collection 保证 将 自身 对 象 返 回 到 集合 对 象 
中 是 此 处 编程 的 重点 和 难点 。 


° 423 “开源 数据 库 连接 池 ` 


现在 很 多 Web 服务 器 (WebLogic, WebSphere, Tomcat 等 ) 都 提供 了 DataSource 
的 实现 ， 即 连接 池 的 实现 。 通 常 把 DataSource 的 实现 按 其 英文 含义 称 之 为 数据 源 ， 数 
据 源 中 都 包含 数据 库 连 接 池 的 实现 。 也 有 一 些 开源 组 织 提 供 了 数据 源 的 独立 实现 ， 例 
如 ，DBCP 数据 库 连 接 池 、C3P0 数据 库 连 接 池 等 。 在 使 用 了 数据 库 连 接 池 之 后 ， 在 
项 目的 实际 开发 中 就 不 需要 编写 连接 数据 库 的 代码 了 ， 而 是 直接 从 数据 源 获得 数据 库 
的 连接 。 


1. DBCP 数据 源 


DBCP 是 Apache 软件 基金 组 织 下 的 开源 连接 池 实 现 ,其 下 载 地 址 为 http://commons. 
apache.org/proper/commons-dbcp/download_dbcp.cgi。 Tomcat 的 连接 池 正 是 采用 该 连接 池 
来 实现 的 。 该 数据 库 连 接 池 既 可 以 与 应 用 服务 器 整合 使 用 ， 也 可 由 应 用 程序 独立 使 用 。 
对 于 不 同 的 JDBC 版 本 ，Apache DBCP 主要 提供 了 以 下 三 个 版 本 。 

(1) DBCP2.1.1 Гог JDBC 4.1 (Java 7+); 
(2) DBCP 1.4 for JDBC 4 (Java 6); 
(3) DBCP 1.3 for JDBC 3 (Java 1.4 and Java 5). 

以 Java 7+ 为 例 ， 要 使 用 DBCP 数据 源 ， 从 上 述 官网 下 载 文件 commons-dbcp2-2.1.1- 
bin.zip。 把 解压 缩 后 的 commons-dbcp2-2.1.1.jar 文件 添加 到 项 目 中 ， 即 可 使 用 。 需 要 注 
意 的 是 ， DBCP2 (包括 DBCP 2.1.1) 需要 JDK 7.0 或 以 上 版 本 。 由 于 使 用 DBCP 数据 源 
获得 的 连接 对 象 使 用 了 连接 池 , 因此 在 项 目 中 还 需要 添加 相关 的 jar € Apache Commons 
Pool 的 网 址 为 http://commons.apache.org/proper/commons-pool/download pool.cgi。 与 
DBCP 2 共同 工作 的 版 本 可 以 使 用 Apache Commons Pool 2.4.3。 因 此 ， 需 要 在 开发 的 项 
目 中 添加 如 下 jar 包 。 

(1) commons-dbcp2-2.1.1.jar: 连接 池 的 实现 。 
(2) commons-pool2-2.4.3jar: 连接 池 实 现 的 依赖 库 。 


2. СЗРО 数据 源 


C3P0 是 一 个 开源 的 JDBC 连接 池 ， 它 实现 了 数据 源 和 JNDI 绑 定 ， 支 持 JDBC 2 的 
标准 扩展 和 JDBC 3 规范 。 目 前 使 用 它 的 开源 项 目 有 Hibernate, Spring 等 。C3P0 数据 源 
在 项 目 开 发 中 使 用 得 比较 多 。C3P0 与 DBCP 的 区 别 在 于 : DBCP 没有 自动 回收 空闲 连接 


的 功能 ， 而 C3P0 有 自动 回收 空闲 连接 功能 。C3P0 的 下 载 地 址 为 https://sourceforge. 
net/projects/c3p0/。 


4.3 数据 源 与 JNDI 


JNDI (Java Naming and Directory Interface, Java 命名 和 目录 接口 ) 对 应 于 J2SE 中 
的 javax.naming 包 。 这 套 АРІ 的 主要 作用 在 于 : 它 可 以 把 Java 对 象 放 在 一 个 容器 (JNDI 
容器 ) 中 ， 并 为 容器 中 的 Java 对 象 取 一 个 名 称 ， 如 果 应 用 程序 需要 获得 Java 对 象 ， 通 
过 名 称 检索 即 可 。JNDI 中 的 核心 АРІ 为 Context， 它 代表 了 INDI 容器 ， 调 用 其 lookup 
方法 即 可 检索 并 获得 容器 中 对 应 名 称 的 对 象 。 

Tomcat 服务 器 创建 的 数据 源 是 以 JNDI 资源 的 形式 发 布 的 , 因此 在 Тотса 服务 器 中 
配置 一 个 数据 源 实际 上 就 是 在 配置 一 个 JNDI 资源 ， 使 用 如 下 的 方式 配置 Tomcat 服务 器 
的 数据 源 。 

<Context> 

<Resource 

name="jdbc/ecommerceDB" auth="Container" 
type="javax.sql.pDataSource" 
username="ecommerce" password="cnedubuu" 
driverClassName="com.mysql.jdbc.Driver" 
url="jdbc:mysql://localhost:3306/ecommerce" 
maxActive="8" maxIdle="4" /> 

</Context> 


服务 器 创建 好 数据 源 之 后 ， 应 用 程序 应 该 如 何 使 用 这 个 数据 源 呢 ? Tomcat 服务 器 
创建 好 数据 源 之 后 是 以 JNDI 的 形式 绑 定 到 一 个 INDI 容器 中 的 。 可 以 把 JNDI 想象 成 
一 个 大 的 容器 ， 可 以 往 这 个 容器 中 存放 一 些 对 象 和 资源 。JNDI 容器 中 存放 的 对 象 和 资 
源 都 会 有 一 个 独一无二 的 名 称 , 应 用 程序 从 JNDI 容器 中 获取 资源 时 , 只 需要 告诉 JNDI 
容器 要 获取 的 资源 的 名 称 即 可 ，JNDI 根据 名 称 去 找到 对 应 的 资源 后 返回 给 应 用 程序 。 
在 Јама EE 开发 中 ,服务 器 会 为 应 用 程序 创建 很 多 资源 ， 比 如 request 和 response 对 象 。 
应 用 程序 使 用 服务 器 创建 的 这 些 资源 主要 有 两 种 方式 : 第 一 种 是 通过 方法 参数 的 形式 
传递 进来 ， 例 如 ， 在 Servlet 的 doPost 和 doGet 方法 中 使 用 到 的 request 和 response 对 
象 就 是 服务 器 以 参数 的 形式 传递 给 应 用 程序 的 ; 第 二 种 就 是 JNDI 的 方式 , 服务 器 把 创 
建 好 的 资源 绑 定 到 JNDI 容器 中 去 ， 应 用 程序 使 用 资源 时 ， 就 直接 从 INDI 容器 中 获取 
相应 的 资源 即 可 。 

对 于 上 面 的 name="jdbc/ecommerce" 的 数据 源 资 源 , 在 应 用 程序 中 可 以 用 如 下 的 代码 
去 获取 。 

Context initCtx = new InitialContext(); 
Context envCtx = (Context) initCtx.lookup ("java:comp/env"); 


dataSource = (DataSource)envCtx .lookup ("jdbc/ecommerce"); 
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44 JDBC 3.0 | 


JDBC 3.0 随 JDK 1.4 一 起 发 布 ， 新 增 的 特性 主要 如 下 。 
1. 元 数据 API 


DatabaseMetaData 接口 可 以 检索 SQL 类 型 的 层次 结构 ， 而 一 种 新 的 
ParameterMetaData 接口 可 以 描述 PreparedStatement 对 象 中 参数 的 类 型 和 属性 。 


2. CallableStatements 中 已 命名 的 参数 


在 JDBC 3.0 之 前 , 设置 一 个 存储 过 程 中 的 一 个 参数 要 指定 它 的 索引 值 , 而 不 是 它 的 
名 称 。CallableStatement 接口 已 经 被 更 新 了 ， 现 在 可 以 使 用 名 称 来 指定 参数 。 


3. 数据 类 型 的 改变 


JDBC 所 支持 的 数据 类 型 做 了 几 个 改变 ， 其 中 之 一 是 增加 了 两 种 新 的 数据 类 型 : 
java.sql.Types.DATALINK 和 java.sql.Types.BOOLEAN。 其 中 ，DATALINK 提供 了 对 外 
部 资源 的 访问 或 URL, M BOOLEAN 类 型 则 在 逻辑 上 和 BIT 类 型 是 等 价 的 ， 只 是 增 
加 了 在 语义 上 的 含义 。DATALINK 列 值 是 通过 使 用 新 的 getURL() 方 法 从 ResultSet 的 一 
个 实例 中 检索 到 的 , 而 BOOLEAN 类 型 的 值 可 以 通过 调用 ResultSet 对 象 的 getBoolean() 
方法 来 获得 。 

4. 检索 自动 产生 的 关键 字 


JDBC 3.0 АРГ 能 够 轻松 地 获取 自动 产生 的 或 自动 增加 的 关键 字 的 值 。 要 确定 任何 所 
产生 的 关键 字 的 值 ， 只 要 简单 地 在 语句 的 execute0 方 法 中 指定 一 个 可 选 的 标记 ， 表 示 有 
兴趣 获取 产生 的 值 。 开 发 人 员 感 兴趣 的 程度 可 以 是 Statement.RETURN_ 
GENERATED KEYS ， 也 可 以 是 Statement. NO_GENERATED_KEYS. 在 执行 这 条 语句 
后 ， 所 产生 的 关键 字 的 值 就 可 以 通过 调用 Statement 的 实例 方法 getGeneratedKeys() 来 
获得 ，ResultSet 对 象 中 包含 每 个 所 产生 的 关键 字 的 列 ， 示 例 代码 如 下 。 


Statement stmt = conn.createStatement (); 
stmt .executeUpdate ("INSERT INTO authors " 
+" (first name, last name) " 
+ "VALUES ('George', 'Окме11')", 
Statement .RETURN GENERATED KEYS); 
ResultSet rs = stmt.getGeneratedKeys () ; 
iE ( rs.next0 ) f 

//Retrieve the auto generated кеу(з). 


int key = rs.getInt(); 
} 


5. 连接 器 关系 


J2EE 连接 器 体系 结构 指定 了 一 组 协议 , 允许 企业 的 信息 系统 以 一 种 可 插入 的 方式 连 
接 到 应 用 服务 器 上 。 这 种 体系 结构 定义 了 负责 与 外 部 系统 连接 的 资源 适配器 。 连 接 器 服 
务 提 供 者 接口 (The Connectors Service Provider Interface, SPI) 可 以 和 JDBC 接口 提供 的 
服务 紧密 配合 ， 协 同 工 作 。 

JDBC API 实现 了 连接 器 体系 结构 定义 的 三 个 协议 中 的 两 个 。 第 一 个 是 将 应 用 程序 
组 件 与 后 端 系统 相连 接 的 连接 管理 ， 它 是 由 DataSource 和 ConnectionPoolDataSource 接 
口 实现 的 。 第 二 个 是 支持 对 资源 的 事务 性 访问 的 事务 管理 ， 它 是 由 XADataSource 处 理 
的 。 第 三 个 是 支持 后 端 系统 的 安全 访问 的 安全 性 管理 ， 在 这 点 上 ，JDBC 规范 并 没有 任 
何 对 应 点 。 尽 管 有 这 个 不 足 ，JDBC 接口 仍 能 映射 到 连接 器 SPI 上 。 如 果 一 个 驱动 程序 
厂商 将 其 JDBC 驱动 程序 映射 到 连接 器 系统 协议 上 ， 它 就 可 以 将 其 驱动 程序 部 署 为 资源 
适配器 ， 并 因此 具备 了 即 插 即 用 、 封 装 和 在 应 用 服务 器 中 部 署 等 优点 。 这 样 ， 一 个 标准 
的 API 就 可 以 在 不 同 种 类 的 企业 信息 系统 中 ， 供 企业 开发 人 员 使 用 。 


6. ResultSet 可 保持 性 


一 个 可 保持 的 游标 〈 或 结果 ) 是 指 该 游标 在 包含 它 的 事务 被 提交 后 ， 也 不 会 自动 地 
关闭 。JDBC 3.0 增加 了 对 指定 游标 可 保持 性 的 支持 。 要 制定 ResultSet 的 可 保持 性 ， 开 
发 人 员 必 须 在 使 用 createStatement()、prepareStatement() 或 prepareCall() 方 法 准备 编写 一 
条 SQL 语句 时 就 这 么 做 。 总 的 来 说 ， 在 事务 提交 之 后 关闭 游标 操作 会 带 来 更 好 的 性 能 。 
除非 在 事务 结束 后 还 需要 该 游标 ， 否 则 最 好 在 执行 提交 操作 后 将 其 关闭 。 因 为 规范 没有 
规定 ResultSet 的 默认 的 可 保持 性 ， 所 以 具体 行为 还 将 取决 于 执行 情况 。 然 而 ,希望 在 可 
以 使 用 JDBC 3.0 驱动 程序 时 ， 大 多 数 执行 在 事务 结束 后 仍旧 会 关闭 游标 。 


7. 返回 多 重 结果 


JDBC 2 规范 的 一 个 局 限 是 ， 在 任意 时 刻 ， 返 回 多 重 结果 的 语句 只 能 打开 一 个 
ResultSet。JDBC 3.0 规范 对 此 进行 了 修改 , 允许 Statement 接口 支持 多 重 打开 的 ResultSet 
对 象 。 然 而 ， 重 要 的 是 ，execute() 方 法 仍然 会 关闭 任何 以 前 execute0 调 用 后 打开 的 
ResultSet 对 象 。 因 此 ， 为 支持 多 重 打开 的 查询 结果 ResultSet, Statement 接口 中 增加 了 一 
个 重 载 的 getMoreResults() 方 法 。 该 方法 会 做 一 个 整数 标记 ， 在 getResultSet() 方 法 被 调用 
时 指定 前 一 次 打开 的 ResultSet 对 象 的 行为 。 


8. 连接 池 


JDBC 3.0 定义 了 几 个 标准 的 连接 池 属 性 。 开 发 人 员 并 不 需要 直接 调用 АРІ 去 修改 
这 些 属 性 ， 而 是 通过 应 用 服务 器 或 数据 存储 设备 实现 。 由 于 开发 人 员 只 会 间接 地 被 连接 
池 属 性 的 标准 化 所 影响 ， 因 此 有 利之 处 并 不 明显 。 然 而 ， 通 过 减少 厂商 特定 设置 的 属性 
的 数量 并 用 标准 化 的 属性 来 代替 它们 ， 开 发 人 员 能 更 容易 地 在 不 同 厂商 的 JDBC 驱动 程 
序 之 间 进 行 切换 。 另 外 ， 管 理 员 可 以 通过 设置 这 些 属 性 很 好 地 优化 连接 池 ， 从 而 使 应 用 
程序 的 性 能 特点 发 挥 到 极致 
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9. 预备 语句 池 


除了 改进 对 连接 池 的 支持 以 外 ，JDBC 3.0 也 支持 预 编译 SQL 语句 的 缓存 。 预 备 语 
名 允许 开发 人 员 使 用 常用 的 SQL 语句 然后 预 编译 它 , 从 而 在 这 条 语句 被 多 次 执行 的 情况 
下 大 幅度 地 提升 性 能 。 同 时 ， 建 立 一 个 PreparedStatement 对 象 会 带 来 一 定 的 系统 开销 。 
因此 , 在 理想 情况 下 ,这 条 预 编译 SQL 语句 的 生命 周期 应 该 足够 长 ， 以 弥补 它 所 带 来 的 
系统 开销 。 有 时 候 ， 为 了 提高 程序 的 性 能 ， 会 修改 程序 的 对 象 模型 以 延长 
PreparedStatement 对 象 的 生命 周期 。JDBC 3.0 让 开发 人 员 不 再 为 此 担心 ， 因 为 数据 源 层 
现在 负责 为 预备 语句 进行 缓存 。 相应 的 代码 和 已 有 的 基于 JDBC 2.0 API 的 代码 并 没有 什 
么 差异 ， 这 是 由 于 预 编译 SQL 语句 的 缓冲 完全 是 在 内 部 实现 的 。 这 就 意味 着 ， 在 ЈОВС 
3.0 下 ， 现 存 的 代码 可 以 自动 地 利用 预 编 译 语句 池 。 


4.5 JDBC 4.0 


JDBC 4.0 中 新 增 的 特性 主要 如 下 。 
1. Java DB 


安装 了 JDK 6 之后， 除了 传统 的 bin、jre 等 目录 之 外 ，JDK 6 还 新 增 了 一 个 名 为 db 
的 目录 。 这 便 是 Java 6 的 新 成 员 Java DB。 这 是 一 个 纯 Java 实现 的 开源 的 数据 库 管理 系 
统 (DBMS), WF Apache 软件 基金 会 (ASF) 名 下 的 项 目 Derby， 只 有 2MB 大 小 。 


2. 自动 加 载 驱动 


Java.sql.DriverManager 的 内 部 实现 机 制导 致 下 列 编程 方式 的 频繁 使 用 : 先 通过 
Class.forName 方法 找到 特定 驱动 的 class 文件 之 后 ， 再 调用 DriverManager 的 
getConnection 方法 获得 和 数据 库 的 连接 。 这 样 的 代码 给 应 用 程序 的 开发 带 来 了 不 必要 的 
负担 ，JDK 的 开发 者 也 意识 到 了 这 一 点 。 从 Java 6 开始 ， 应 用 程序 不 再 需要 显 式 地 加 载 
驱动 程序 了 ，DriverManager 开始 能 够 自动 地 承担 这 项 任务 。 


3. Rowld 


熟悉 DB2、Oracle 等 大 型 DBMS 的 人 一 定 不 会 对 Кома 这 个 概念 陌生 : CEM 
据 表 中 一 个 “隐藏 ”的 列 ， 是 每 一 行 独一无二 的 标识 ， 其 作用 是 表明 这 一 行 的 物理 或 者 
逻辑 位 置 。 由 于 Кома 类 型 的 广泛 使 用 ，Java 6 中 新 增 了 јата. за Кома 这 一 数据 类 型 ， 
允许 使 用 JDBC 的 应 用 程序 能 够 访问 SQL 中 的 RowId 类 型 。 由 于 不 是 所 有 的 DBMS 都 
支持 Кома 类 型 ， 即 使 支持 不 同 的 Кома 也 会 有 不 同 的 生命 周期 。 因 此 ， 一 般 通过 
DatabaseMetaData 的 getRowIdLifetime 方法 来 判断 类 型 的 生命 周期 。 


4. SQL/XML 


SQL 2003 标准 引入 了 SQL/XML， 作 为 SQL 标准 的 扩展 ，SQL/XML 定义 了 SQL 


怎样 和 XML 交互 : 如何 创建 XML 数据 ， 如 何在 SQL 语句 中 嵌入 XQuery 表达 式 等 。 
作为 JDBC 4.0 的 一 部 分 ，Java 6 增加 了 java.sql.SQLXML 的 类 。JDBC 应 用 程序 可 以 利 
用 该 类 进行 XML 数据 的 初始 化 、 读 取 以 及 存储 。 通 过 调用 java.sql.Connection 类 的 
createSQLXML (方法 就 可 以 创建 一 个 空白 的 SQLXML 对 象 。 在 获得 这 个 对 象 之 后 ， 便 
可 以 利用 setString()、setBinaryStream()、setCharacterStream() 或 者 setResult() 等 方法 来 初 
始 化 所 表示 的 XML 数据 。 


5. SQLExcpetion 的 增强 


{Е Java SE 6 之 前 ， 有 关 JDBC 的 异常 类 不 超过 10 个 。 这 似乎 已 经 不 足以 描述 日 渐 复 
杂 的 数据 库 异 常情 况 。 因 此 ，Java SE 6 的 设计 人 员 对 以 java.sql.SQLException 为 根 的 异常 
体系 做 了 大 幅度 的 改进 。Java 6 中 新 增 的 异常 类 被 分 为 三 种 : SQLReoverableException、 
SQLNonTransientException 和 SQLTransientException。 在 SQLNonTransientException 和 
SQLTransientException 之 下 还 有 若干 子 类 ， 详 细 地 区 分 了 JDBC 程序 中 可 能 出 现 的 各 种 
错误 情况 。 大 多 数 子 类 都 会 有 对 应 的 标准 SQLState 值 ， 很 好 地 将 SQL 标准 和 Java 6 类 
库 结 合 在 一 起 。 


4.6 DAO 编程 模式 


DAO (Data Access Object) 即 数 据 访 问 对 象 。 使 用 DAO 设计 模式 ， 封 装 数据 库 持 
久 层 (数据 库 ) 的 所 有 操作 (CRUD )， 使 低级 的 数据 逻辑 和 高 级 的 业务 逻辑 分 离 ， 达 到 
解 耦合 的 目的 。 持 久 化 是 将 程序 中 的 数据 在 瞬时 状态 下 和 持久 状态 间 转 换 的 机 制 。 持 久 
化 的 主要 操作 包括 : 读 取 、 查 找 、 保 存 、 修 改 、 删 除 。DAO 在 实体 类 与 数据 库 之 间 起 着 
转换 器 的 作用 ,能 够 把 实体 类 转换 为 数据 库 中 的 记录 。DAO 模式 的 作用 主要 是 : 隔离 业 
务 逻 辑 代 码 和 数据 访问 代码 ， 隔 离 不 同 数据 库 的 实现 。 

典型 的 DAO 实现 一 般 有 以 下 组 成 部 分 。 

(1) 数据 库 连 接 和 关闭 工具 类 , 封装 与 数据 库 交 互 的 操作 , 通过 JDBC 实现 对 数据 
库 的 连接 。 

(2) 实体 类 ， 也 称 值 对 象 (Value Object, VO) Ж, 主要 用 属性 、getter0 、setter0) 组 
成 。VO 类 中 的 属性 与 数据 库 中 的 字段 一 一 对 应 ， 每 一 个 VO 对 象 对 应 数据 库 表 中 的 一 
条 记录 。 

(3) DAO 接口 ， 定 义 对 VO 对 象 操作 的 接口 。 

(4) DAO 实现 类 ， 实 现 DAO 接口 。 

基于 DAO 模式 的 分 层 开发 流程 如 下 。 

(1) 创建 数据 库 连接 类 。 

(2) 创建 实体 类 (VO 类 )， 实 体 类 和 相应 的 数据 库 的 表 是 对 应 的 。 
(3) 创建 具体 表 的 DAO 接口 。 

(4) 创建 具体 表 的 DAO 实现 类 。 

(5) 创建 业务 逻辑 层 类 。 

(6) 创建 测试 类 。 
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本 例 将 以 User 表 为 例 , 展示 РАО 分 层 模 式 的 实现 。 MySQL 数据 库 中 已 有 User 表 ， 
属性 包括 : 用 户 ID、 用 户 名 、 密 码 、 电 话 和 地 址 。 
DAO 模式 的 核心 类 图 如 图 4.3 所 示 。 


BusinessObject 使 用 DataAccessObject 封装 DataSource 


“获取 /修改 。 :创建 /使用 


амебе 
—— 
—— 


ХҮ 图 4.3 ОАО 实现 类 图 


(1) 创建 数据 库 源 类 (DataSource) 和 数据 库 连 接 类 (DBUtil)， 封 装 数据 库 属性 
和 数据 库 连 接 操 作 。DataSource 类 为 后 续 修 改 数据 源 信息 提供 方便 。 


DBUtil 类 包括 获得 数据 库 连 接 方法 和 关闭 连接 方法 。 


(2) 创建 实体 类 UserBean， 属 性 与 User 表 一 致 ， 及 相应 的 get/set 方法 。 


(3) 创建 User 表 的 DAO 接口 。 


(4) 创建 User 表 的 РАО 实现 类 。 


0 98 


№ ogar 


ја а 


BR JDBC HERR 


(5) 创建 业务 逻辑 层 类 ， 实 现 用 户 注册 、 注 销 等 操作 的 用 户 交 互 控制 。 


1. 简要 说 明 连 接 池 的 基本 概念 和 作用 。 出 版 社 : 清华 大 学 出 版 社 
2. 采用 DAO 模式 ， 编 程 实现 添加 一 本 新 的 出 版 日 期 2017 年 12 月 1 R 

图 书信 息 概念 ， 图 书信 息 如 下 。 3. 在 习题 2 中 ， 如 果 采 用 的 关系 数据 库 从 第 
书 名 : Java 面向 对 象 程序 设计 MySQL 改 为 了 Microsoft SQL Server， 屠 么 应 用 4 
作者 : 孙 连 英 、 刘 畅 、 彭 涛 程序 应 该 如 何 修改 ? 
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Hibernate 基础 


51 Hibernate 简介 


Hibernate 是 一 个 开放 源 代码 的 对 象 关 系 映 射 CORM) HER, 它 对 JDBC 进行 了 非常 
轻 量 级 的 封装 , 使 得 程序 员 可 以 随心 所 欲 地 使 用 面向 对 象 的 编程 思想 来 访问 关系 数据 库 ， 
完成 数据 访问 层 〈 即 持久 化 层 ) 的 开发 工作 。Hibernate 可 以 应 用 在 任何 使 用 JDBC 的 场 
£, 也 就 是 说 , 既 可 以 在 Java 的 客户 端 程序 (包括 命令 行 的 应 用 程序 ) 中 使 用 Hibernate, 
也 可 以 在 JSP 或 Servlet 等 Java Web 应 用 中 使 用 Hibernate, 

总 之 , 可 以 简单 地 理解 为 Hibernate 是 在 JDBC 技术 的 基础 上 衍生 而 来 的 ,并 在 此 基 
础 上 使 得 由 原来 直接 操纵 关系 数据 库 变 成 直接 操作 映射 数据 表 后 生成 Java 类 的 对 象 , 从 
而 实现 基于 对 象 编程 思想 来 操纵 关系 数据 库 。 

Hibernate 是 一 个 JDO (Java Data Object, Java 数据 对 象 ) 工具 。 它 的 工作 原理 是 通 
过 文件 把 值 对 象 (Value Object, VO, 在 Java 程序 中 一 般 采 用 JavaBean 实现 ) 和 关系 数 
据 库 中 的 表 之 间 建 立 起 一 个 映射 关系 , 这样 开发 人 员 只 需要 操作 这 些 值 对 象 和 Hibernate 
提供 的 一 些 基 本 类 ， 就 可 以 达到 访问 数据 库 的 目的 。 例如， 使 用 Hibernate 的 查询 ， 可 以 
直接 返回 包含 某 个 值 对 象 的 列表 (List)， 而 不 必 像 传统 的 ЛОВС 访问 方式 一 样 把 结果 集 
的 数据 逐个 装载 到 一 个 值 对 象 中 ， 这 样 带 来 的 优点 是 在 持久 化 层 的 开发 工作 中 降低 了 大 
量 的 简单 重复 劳动 。Hibemate 提供 的 HQL (Hibernate Query Language, Hibernate 查询 
语言 ) 是 一 个 类 SQL 语言 ， 它 和 EJBQL (HQL 的 一 个 子 集 ) 一 样 都 提供 了 面向 对 象 的 
数据 查询 方式 ， 其 中 ，HQL 在 功能 和 使 用 方式 上 都 非常 接近 于 标准 的 SQL 。 

Hibernate 的 作用 是 介 于 Java 与 JDBC 
之 间 的 一 个 持久 层 , 它 通过 建立 与 数据 库 表 数据 访问 层 
之 间 的 映射 来 操纵 数据 库 ， 如 图 5.1 所 示 。 

Hibernate 是 基于 JDBC 基础 之 上 的 ,在 Jave 持 久 化 API Hibernate API 
深入 学 习 Hibernate 理论 技术 之 前 ， 需 了 解 
数据 库 操作 的 三 个 阶段 、ORM 对 象 关系 映 ааш 
射 、 持 久 层 概念 。 JDBC 


Hibernate 出 现 之 前 ， 在 Java 程序 中 对 
数据 库 操作 主要 使 用 JDBC， 这 中 间 经 历 了 === = 


操作 JDBC、 封 装 JDBC. ORM 三 个 阶段 。 


1. 操作 JDBC 阶段 ГУ 图 51 Hibernate 在 软件 架构 中 的 地 位 
本 阶段 在 调用 JDBC 连接 数据 库 的 包 
时 , 需要 程序 员 编 写 数据 库 用 户 登录 验证 的 代码 。 在 这 段 代码 中 可 以 执行 SQL 语句 进行 
数据 查询 、 插 入 、 删 除 、 修 改 等 操作 。 


2. 封装 JDBC 阶段 


由 于 只 是 操作 JDBC， 使 得 在 实现 不 同 罗 辑 功 能 时 ， 都 要 重新 编写 数据 库 用 户 登录 
验证 的 代码 ， 使 得 代码 重复 很 严重 。 为 此 ， 引 入 了 JavaBean 的 技术 : 定义 一 个 类 进行 数 
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据 库 用 户 登 录 验 证 和 数据 库 操作 (例如 类 DBAccess、DBUtil 等 )， 并 把 其 中 进行 数据 库 
操作 的 部 分 封装 成 不 同 的 方法 ， 那 么 实现 后 续 的 逻辑 功能 时 只 需 调用 这 些 方 法 即 可 。 


3. ORM 阶段 


在 对 JDBC 进行 封装 之 后 ， 能 够 方便 地 实现 数据 库 的 操作 。 但 是 ， 在 基于 面向 对 象 
的 编程 开发 中 ,数据库 的 操作 与 普通 的 面向 对 象 的 Java 代码 ， 显 然 是 两 种 不 同 的 开发 思 
路 。 于 是 就 产生 了 ORM 阶段 一 一 使 原来 直接 操作 数据 库 变 成 了 直接 操作 普通 的 Java 类 
来 实现 相应 的 数据 库 操作 。 

ORM 是 Object Relational Mapping 的 简称 ， 即 对 象 关系 映射 。 它 是 一 种 为 了 解决 面 
向 对 象 与 关系 数据 库 之 间 的 互 不 匹配 而 提出 的 技术 。 简 单 地 说 ，ORM 是 通过 使 用 描述 
对 象 和 数据 库 之 间 映 射 的 元 数据 ， 将 Java 程序 中 的 对 象 持久 化 到 关系 数据 库 中 。 下 面 请 
看 一 个 学 生 实体 (建立 数据 表 时 , 要 描述 的 现实 世界 中 的 实现 )、 数据 表 (实体 建立 完 后 ， 
抽象 分 析 完 成 数据 表 建 立 )、Java 类 〈 此 处 就 是 ORM 要 完成 的 任务 而 抽象 生成 的 Java 
K), 如 图 5.2 所 示 。 由 图 5.2 可 知 , ORM 实现 了 数据 表 到 Java 对 象 的 映射 , 这 正 是 ОКМ 
的 作用 。 


ORM 


| 
! зехђоу ' 


£ U 图 5.2 Java 对象 (Student) 和 数据 库 中 表 (Student) 之 间 的 映射 


ORM 是 通过 使 用 描述 对 象 和 数据 库 之 间 映 射 的 元 数据 ， 将 Java 程序 中 的 对 象 自动 

持久 化 到 关系 数据 库 中 。 由 此 便 引 入 了 以 下 几 个 概念 。 
О 持久 化 : 是 对 数据 和 程序 状态 的 保持 。 大 多 数 情况 下 特别 是 企业 级 应 用 ， 数 据 
持久 化 往往 也 就 意味 将 内 存 中 的 数据 保存 到 磁盘 上 进行 永久 存储 ， 而 持久 化 的 
数据 一 般 情 况 下 主要 使 用 各 种 关系 数据 库 来 存储 。 
о HAA: 把 数据 库 实现 作为 一 个 独立 逻辑 提取 出 来 ， 即 数据 库 程序 是 在 内 存 中 
的 ， 为 了 使 程序 运行 结束 后 状态 得 以 保存 ， 就 要 保存 到 数据 库 。 持 久 层 是 系统 
逻辑 层面 的 ， 专 门 实现 数据 持久 化 的 一 个 相对 独立 的 领域 。 
持久 层 的 目的 是 通过 持久 层 的 框架 将 数据 库存 储 服 务 从 服务 层 中 分 离 出 来 ， 而 
Hibernate 是 目前 最 流行 的 持久 层 框 架 之 一 ， 其 他 广泛 使 用 的 ORM 框架 还 包括 MyBatis 
(由 Вац 改名 ) 等 。 

下 面 简要 说 一 下 Hibernate 的 开发 流程 ， 主 要 分 为 以 下 5 步 。 

(1) 创建 Hibernate 的 配置 文件 : 该 文件 负责 初始 化 Hibernate 配置 , 包括 数据 库 配 


置 (数据 源 信息 、DBMS 种 类 、 登录 的 用 户 名 和 密码 等 ) нЕ 
和 映射 文件 的 配置 。 u 
(2) 创建 Hibemate 的 映射 文件 : 每 一 个 数据 表 对 DAO 层 
应 一 个 映射 文件 ， 该 文件 描述 了 数据 库 中 表 的 信息 ， 以 ji 
及 对 应 的 持久 化 类 的 信息 。 Hibemate АРГ 
(3) 创建 持久 化 类 : 每 一 个 类 对 应 于 数据 库 表 ， i 1 
通过 映射 文件 进行 关联 。 RARR | | рет 
(4) 面 向 Web 应 用 层 ,编写 DAO 层 :通过 Hibernate 1 配置 文件 
API 编写 访问 数据 库 的 代码 。 映射 文件 и „— 
(5) 面向 Web 应 用 层 ， 编 写 Service 层 : 编写 业 
务 层 实现 ， 调 用 DAO 层 类 代码 。 
具体 流程 如 图 5.3 所 示 。 £ 图 5.3 。 基 于 Hibernate 
框架 的 开发 流程 


5.2 Hibernate 核心 接口 


Hibernate 的 核心 接口 主要 包括 : Configuration、SessionFactory、 Session、Transaction、 
Query 和 Criteria。 通 过 这 些 接口 ， 不 仅 可 以 对 持久 化 对 象 进行 存 取 ， 还 能 够 进行 事务 控 
制 ， 下 面 对 这 些 核心 接口 进行 介绍 。 


--5.2.1 Configuration 接口 -， 
Configuration 接口 负责 配置 并 启动 Hibernate, 创建 SessionFactory 对 象 。 在 Hibernate 
的 启动 过 程 中 ，Configuration 的 实例 首先 读 取 配 置信 息 并 定位 映射 文档 的 位 置 ， 然 后 创 
建 SessionFactory 对 象 。 


е-- 5.2.2 SessionFactory 接口 .- 


` 
РА 


SessionFactory 接口 负责 初始 化 Hibermate， 充 当 数 据 存 储 源 的 代理 ， 并 负责 创建 
Session 对 象 ， 这 里 用 到 了 工厂 模式 。 一 个 SessionFactory 实例 对 应 一 个 数据 存储 源 ， 应 
用 程序 从 SessionFactory 中 获得 Session 实例 。SessionFactory 是 线程 安全 的 ， 这 意味 着 
它 的 同一 个 实例 可 以 被 应 用 程序 的 多 个 线程 共享 。 SessionFactory 是 重量 级 的 , 这 意味 着 
不 能 随意 创建 或 销毁 它 的 实例 。 如 果 应 用 程序 只 访问 一 个 数据 库 ， 那 么 一 般 只 需要 创建 
一 个 SessionFactory 实例 ， 一 般 是 在 应 用 程序 初始 化 的 时 候 创建 该 实例 。 如 果 应 用 程序 
同时 访问 多 个 数据 库 ， 则 需要 为 每 个 数据 库 创 建 一 个 单独 的 SessionFactory 实例 。 

之 所 以 称 SessionFactory 是 重量 级 的 ， 是 因为 它 需 要 一 个 很 大 的 缓存 ， 用 来 存放 预 
定义 的 SQL 语句 以 便 能 映射 元 数据 等 ,用 户 还 可 以 为 SessionFactory 配置 一 个 缓存 插件 ， 
这 个 缓存 插件 被 称 为 Hibemate 的 第 二 级 缓存 。 该 缓存 用 来 存放 被 工作 单元 读 过 的 数据 ， 
将 来 其 他 工作 单元 可 能 会 重用 这 些 数 据 ， 因 此 这 个 缓存 中 的 数据 能 够 被 所 有 工作 单元 共 
享 。 一 个 工作 单元 通常 对 应 一 个 数据 库 事务 。 
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--5.2.3 Session 接口 -， 

Session 接口 负责 执行 被 持久 化 对 象 的 CRUD 操作 。CRUD 操作 的 任务 是 完成 与 数 
据 库 的 交互 ， 包 含 相应 的 SQL 语句 执行 。 需 要 注意 的 是 ，Session 对 象 是 非 线程 安全 的 ， 
同时 ，Hibernate 中 的 Session 也 不 同 于 Java Web 应 用 开发 中 的 HttpSession， 后 者 一 般 被 
称 为 用 户 Session, 

Session 接口 是 Hibernate 应 用 使 用 最 广泛 的 接口 。Session 也 被 称 为 持久 化 管理 器 ， 
它 提供 了 和 持久 化 相关 的 操作 ， 如 添加 、 更 新 、 删 除 、 加 载 和 查询 对 象 。 

Session 具有 以 下 特点 。 

O Session 不 是 线程 安全 的 ， 因 此 在 设计 软件 架构 时 ， 应 该 避免 多 个 线程 共享 同一 

个 Session 实例 。 

О Session 实例 是 轻 量 级 的 ， 所 谓 轻 量 级 ， 是 指 它 的 创建 和 销毁 不 需要 消耗 太 多 的 
资源 。 这 意味 着 在 应 用 程序 中 可 以 经 常 创建 和 销毁 Session 对 象 ， 例 如 ， 为 每 个 
客户 请 示 分 配 单独 的 Session 实例 ,或 者 为 每 个 工作 单元 分 配 单独 的 Session 实例 。 

口 Session 有 一 个 缓存 ， 被 称 为 Hibemate 的 第 一 级 缓存 ， 其 中 存放 着 被 当前 工作 
单元 加 载 的 对 象 。 每 个 Session 实例 都 有 自己 的 缓存 ， 这 个 Session 实例 的 缓存 
只 能 被 当前 工作 单元 访问 。 


Ф 5.24 Transaction 接口 、 


2 


Transaction 接口 负责 事务 相关 的 操作 。 它 是 可 选 的 ， 开 发 人 员 也 可 以 设计 编写 自己 
的 底层 事务 处 理 代 码 。Transaction 接口 是 Hibernate 的 数据 库 事务 接口 , 它 对 底层 的 事务 
接口 做 了 封装 ， 底 层 事务 接口 包括 : JDBC API、JTA (Java Transaction API)、CORBA 
(Common Object Request Broker Architecture) API 等 。 

Hibernate 应 用 程序 可 通过 一 致 的 Transaction 接口 来 声明 事务 边界 ， 这 有 助 于 应 
用 程序 在 不 同 的 环境 容器 中 移植 。 尽 管 应 用 程序 也 可 以 绕 过 Transaction 接口 ， 直 接 
访问 底层 的 事务 接口 , 但 并 不 推荐 使 用 这 种 方法 , 因为 它 不 利于 应 用 程序 在 不 同 的 环 
境 移 植 。 


Ф 5.225 Query 和 Criteria 接口 -、 

Query 和 Criteria 接口 负责 执行 各 种 数据 库 查 询 ， 可 以 使 用 HQL 语句 或 SQL 语 
句 两 种 表达 方式 。Query 和 Criteria 接口 是 Hibernate 的 查询 接口 ， 用 于 向 数据 库 查 询 
对 象 ， 以 及 控制 执行 查询 的 过 程 。Query 实例 中 一 般 使 用 НОГ, 查询 语句 ，HQL 查询 
语句 和 SQL 查询 语句 有 些 相似 , 但 HQL 查询 语句 是 面向 对 象 的 , 它 基 于 类 以 及 类 的 
属性 来 进行 查询 ， 而 不 是 基于 表 和 表 的 字段 ORKA KEH. Criteria 接口 则 完 
全 封装 了 基于 字符 串 的 查询 语句 ， 它 比 Query 接口 更 加 面向 对 象 。Criteria 接口 经 常 
用 于 执行 动态 查询 。 


Session 接口 的 find0 方法 也 具有 数据 查询 功能 ， 但 它 是 只 执行 一 些 简单 的 HQL Ж 
询 语 句 的 快捷 方法 ， 它 的 功能 远 没 有 Query 接口 强大 。 
使 用 上 述 几 个 核心 接口 进行 Hibernate 编程 的 一 般 步 又 如 图 5.4 所 示 。 


配置 文件 
Hibernate.cfg.xml 


映射 文件 


xxx.hbm.xml 


应 用 程序 


Configuration 


Y 


SessionFactory 
Query 
Session 查询 


Criteria 


277 图 5.4 基于 Hibernate 编程 的 一 般 步 骤 


5.3 ”第 一 个 Hibernate 程序 


本 节 将 创建 一 个 Java Application 应 用 程序 ， 以 案例 数据 库 一 一 电子 商务 数据 库 中 的 
用 户 注册 为 例 ， 使 用 Hibernate 向 数据 库 表 中 添加 一 个 用 户 。 
使 用 Hibernate 编程 的 步骤 如 下 。 
(1) 配置 环境 ， 添 加 Hibernate 相关 的 jar 文件、 连接 数据 库 的 jar 文件 ， 并 配置 相 
关 的 环境 变量 ; 
(2) 编写 与 数据 库 表 对 应 的 POJO 类 (Plain Ordinary Java Object， 简 单 的 Java 对 
象 ， 另 有 说 法 为 Pure Old Java Object)， 并 创建 对 应 的 持久 化 对 象 映射 文件 X х x 
X hbm.xml; 
G) 编写 Hibemate 所 需要 的 数据 库 配置 文件 ， 即 Hibernate.cfg.xml; 
(4) 调用 Hibernate API， 完 成 用 户 的 添加 。API 调用 包括 : 使 用 Configuration 对 象 
的 buildSessionFactory0 方 法 创建 SessionFactory 对 象 、 调 用 SessionFactory 对 象 的 
openSession() 方 法 得 到 Session 对 象 、 调 用 Session 对 象 的 相应 方法 来 操纵 数据 库 ， 将 对 
象 信息 持久 化 到 数据 库 中 。 
$--5.3.1 Hibernate 开发 环境 配置 -、 
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在 应 用 程序 中 使 用 Hibernate 框架 , 需要 首先 加 载 Hibernate 框架 的 相关 jar 包 。 下面 
简单 介绍 Hibernate 下 载 和 配置 的 过 程 。 
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Hibernate 的 官网 地 址 为 http:/wwwhibemate.org/， 其 首页 如 图 5.5 所 示 。 可 以 看 出 ， 
Hibernate 除了 Hibernate ORM 之 外 ， 还 包括 Hibernate Search, Hibernate Validator 等 。 
Hibernate ORM 目前 (2017 年 12 月 ) 最 新 的 版 本 为 5.2, 其 网 址 为 http://www.hibernate.org/ 
orm/releases/5.2/。 本 书 采 用 的 Hibernate 版 本 为 5.2.12， 该 版 本 支持 Java 8+ 和 JPA 2.1, 
如 图 5.6 所 示 。 下 载 之 后 ， 添 加 到 Eclipse 的 项 目 中 ， 如 图 5.7 所 示 。 
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5.5 _ Нретаје 官网 首页 
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12 Package Explorer 3 _ 
20171129 FirstHibernateApp 
sBs 
< 8 cneedu.buu.app 
> E UserRegisterApplicationjava 


È antlr-2.7.7 jar 

== classmate-1.3.0.jar 

È dom4j-161jar 

=: hibernate-commons-annotations-5.0.1.Finaljar 

=! hibernate-core-5.2.12.Finaljar 

sË hibernate-jpa-2.1-api-1.0.0.Finaljar 

È jandex-203Finaljar 

š javassist-3200-GAjar 

sË jboss-logging-3.3.0.Finaljar 

sË jboss-transaction-api_1.2_spec-10.1Finaljar 
a с> mysqlDriverlib 

ай mysql-connector-java-5.1.39-binjar 


ХҮ 图 57 Eclipse 项 目 中 引用 Hibernate 相关 的 库 文件 


在 Eclipse 的 项 目 中 的 sre 下 新 建 包 cn.edu.buu.model， 并 在 其 中 创建 Hibernate 的 
POJO 类 User (对 应 数据 表 user), Hibernate 中 的 POJO 类 是 非常 简单 的 ， 完 全 采用 普通 
的 Java 对 象 来 作为 持久 化 对 象 ， 参 见 例 5.1。 


[ 例 5.1] Userjava 


可 以 看 出 , 这 个 类 就 是 普通 的 JavaBean Ж, 但 是 这 个 类 目前 还 不 具备 持久 化 操作 的 
能 力 。 为 了 使 其 具备 持久 化 操作 的 能 力 ,需要 为 其 编写 Hibernate 映射 文件 ， 为 这 个 对 象 
与 数据 库 的 表 之 间 建 立 联系 。 为 User 类 创建 对 应 的 映射 文件 userhbm.xml 的 具体 配置 内 
容 参 见 例 5.2。 


[ 例 5.2] userhbm.xml 


如 上 面 的 映射 文件 所 示 ，hibernate-mapping 元 素 是 根 元 素 ， 根 元 素 的 内 部 有 子 元 素 
class, class 元 素 用 来 指定 类 和 表 的 映射 , 其 пате 属性 用 来 指定 该 映射 文件 对 应 的 POJO 
类 的 全 名 (包括 包 名 )，table 属性 指定 该 类 对 应 的 数据 库 中 表 的 名 称 。 一 个 class 元 素 定 
义 了 一 个 持久 化 类 与 表 的 映射 关系 。 

映射 文件 userhbm.xml 用 来 指定 持久 化 类 User 与 数据 库 中 表 user 之 间 的 映射 。 该 
文件 可 以 与 Userjava 存储 在 同一 个 目录 下 。 在 本 项 目 中 , 所 有 的 .hbm.xml 映射 文件 均 存 
ТЕ src 的 resources 文件 夹 中 。 关 于 映射 文件 的 位 置 并 没有 明确 的 要 求 ， 上 述 两 种 存储 
方式 都 是 可 行 的 。 无 论 映射 文件 存储 在 哪个 位 置 ， 均 要 求 在 Hibernate 配置 文件 的 
<mapping> 元 素 的 resource 属性 中 给 出 明确 的 位 置信 息 ， 请 参见 例 5.3 中 的 <mapping> 元 
素 的 resource 属性 值 。 


Hibernate 映射 文件 是 Hibernate 持久 化 类 和 数据 库 表 的 映射 信息 ，Hibernate 配置 文 
件 则 是 Hibernate 连接 的 数据 库 源 的 相关 人 信息， 例如， 数据库 的 用 户 名 、 密 码 、URL 等 。 
数据 配置 内 容 一 般 定义 在 hibernate.cfg.xml 文件 中 ， 具 体内 容 参见 例 5.3。 在 本 项 目 中 ， 
该 文件 和 映射 文件 都 存储 在 src 的 resources 文件 夹 中 ， 如 图 5.7 所 示 。 该 文件 也 可 以 存 
储 在 src 的 根 目 录 下 或 其 他 位 置 。 


[ 例 5.3] hibernate.cfg.xml 


је әјешәсін Шо 


础 


需要 说 明 的 是 ， 在 配置 <property name="connection url"> 时 ， 由 于 要 设置 与 MySQL 
通信 时 的 字符 编码 方式 ， 一 般 设置 为 useUnicode=true& characterEncoding=utf-8， 但 在 该 
配置 文件 中 ， 不 能 直接 使 用 &， 需 要 使 用 对 应 的 字符 实体 表示 方式 “&amp”;， 最 终 使 
用 的 值 为 useUnicode=true &amp:characterEncoding=utf-8。 另 外 ,在 该 项 目 中 ,userhbm.xml 
文件 存储 在 了 resources 文件 夹 下 (如 图 5.7 中 的 resources 文件 夹 所 示 )， 因 此 指定 映射 
文件 的 路 径 时 ， 采 用 的 值 为 resources/userhbm.xml， 参 见 上 述 配置 文件 的 倒数 第 三 行 。 


使 用 Hibernate 框架 中 的 Configuration, SessionFactory, Session 等 接口 ， 编 写 提供 


数据 库 访问 的 工具 类 HibemateUtil， 如 例 5.4 所 示 。 
[ 例 5.4] HibernateUtiljava 


[91 5.5] ОѕегрАО java 


[91 5.6] UserDAOHibernate јауа 


зе 


ајешефн TN 
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第 一 个 Hibernate 程序 模拟 了 用 户 注册 业务 , 添加 一 个 新 的 用 户 到 数据 库 中 , 参见 例 


[ 例 5.7] UserRegisterApplication.java 


а 


例 5.7 运行 的 结果 如 图 5.8 所 示 。 可 以 看 出 ，Hibemate 自动 把 添加 新 用 户 的 方法 调 


用 转换 为 相应 的 SQL 语句 。 需 要 说 明 的 是 ，Hibernate 应 用 程序 最 后 需要 关闭 获得 的 
SessionFactory 类 的 对 象 ， 否 则 应 用 程序 中 的 线程 会 继续 运行 ， 应 用 程序 不 会 退出 。 


захавана вто 


КЕЕ 
28:52 r+ org.hibernate.Version logversion 
: Hibernate Core {5.2.12.Final} 

十 = 月 19，2917 8:28:52 上 午 org.hibernate.cfg.Environment <clinit> 

INFO; HHH866206: hibernate.properties not found 

十 = 月 19，2917 8:28:52 ++ org.hibernate.boot.jaxb.internal.stax.LocalxmlResourceResolver resolveEntity 

Наян: HHH99000012: Recognized obsolete hibernate namespace http://hibernate.sourceforge.net/hibernate-configuration. Use namespace http://w 
+2719, 2017 8:28:53 Ł7org.hibernate.annotations. common. reflection. java. JavaReflectionManager <clinit> 

INFO: HCANN090001: Hibernate Commons Annotations {5.0.1. Final} 

+2719, 2017 8:28:53 + org.hibernate.engine. jdbc. connections. internal.DriverManagerConnectionProviderInpl configure 

маям: HHH100901002: Using Hibernate built-in connection pool (not for production use!) 

19, 2017 8:28:53 Е+ org.hibernate.engine.jdbc.connections.internal.DriverManagerConnectionProviderImpl buildcreator 

INFO: нннтеде1005: using driver [com.mysql.jdbc.Driver] at URL [jdbc:mysql://localhost:3306/ecommerce?useUnicode=trueñcharactergncoding=utf- 
+2719, 2017 8:28:53 Е+ org.hibernate.engine. jdbc. connections. internal.DriverManagerConnectionProviderImpl buildCreator 

INFO: ННН10001001: Connection properties: {user=root, password="***} 

+2A19, 2017 8:28:53 Е+ org.hibernate.engine. jdbc.connections. internal. DriverManagerConnectionProviderInpl buildcreator 

INFO: НННІ0901093: Autocommit mode: false 

+2719, 2017 8:28:53 + org-hibernate.engine.jdbc.connections.internal.Pooledconnections <init> 

INFO: HHH000115: Hibernate connection pool size: 20 (min=1) 

19, 2017 8:28:53 ++ org.hibernate.dialect.Dialect cinit> 

INFO: нинедедео: Using dialect: org.hibernate.dialect.MySQLDialect 

Hibernate: insert into user (u_register, u_name, u_password, ы зех, u_phone, u_qq, и рау опе, u_pay_two, u_pay_three, и pay_four) values (?, 
19, 2017 8:28:54 Е+ org.hibernate.engine. jdbc.connections. internal.DriverManagerConnectionProviderInpl stop 
/localhost:3396/ecommerce?useUnicode=true&characterEncoding=utf-8] 


INFO: HHH19991898: Cleaning up connection pool [jdbc:mysq] 
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5.4 Session 接口 


Session 接口 是 Hibernate 中 的 核心 接口 ， 持 久 化 对 象 的 生命 周期 、 事 务 的 管理 和 持 
久 化 对 象 的 查询 、 更 新 和 删除 都 是 通过 Session 对 象 完成 的 。Hibernate 在 操作 数据 库 之 
前 必须 先 获 得 Session 对 象 , 这 就 像 使 用 JDBC 在 操作 数据 库 之 前 必须 先 获 得 Connection 
对 象 一 样 。 因 此 ，Session 是 Hibernate 中 应 用 最 频繁 的 接口 。Session 也 被 称 为 持久 化 管 
理 器 ， 它 负责 所 有 的 持久 化 工作 ， 负 责 管理 持久 化 对 象 的 生命 周期 ， 提 供 第 一 级 别 的 高 
级 缓存 来 保证 持久 化 对 象 的 数据 与 数据 库 同步 。 

Session 的 特点 如 下 。 

单线 程 ， 非 共享 的 对 象 ， 因 此 Session 不 是 线程 安全 的 。 在 基于 Hibernate 进行 开发 
时 ， 应 该 避免 多 个 线程 共享 一 个 Session 实例 。 

Session 实例 是 轻 量 级 的 ， 它 的 创建 和 销毁 不 需要 消耗 太 多 的 资源 。 因 此 ， 可 以 为 每 
次 请 求 分 配 一 个 Session 实例 ， 在 每 次 请 求 过 程 中 及 时 创建 和 销毁 Session 实例 。 

Session 有 一 个 缓存 , 它 存放 当前 工作 单元 加 载 的 对 象 , Session 缓存 被 称 为 Hibernate 
一 级 缓存 。 

Java 中 ,缓存 通常 是 指 Java 对 象 的 属性 占用 的 内 存 空 间 , 一 般 使 用 集合 类 型 的 属性 
VENETE. Session 这 一 级 别 的 缓存 通常 称 为 一 级 缓存 ， 是 由 它 的 实现 类 SessionImpl 中 
的 成 员 变 量 persistenceContext 中 定义 的 一 系列 Java 集合 属性 构成 的 。 成 员 变 量 
persistenceContext 的 类 型 为 org.hibernate. engine.internal.StatefulPersistenceContext， 该 类 
实现 了 org.hibernate.engine.spiPersistenceContext 接 口 。 在 StatefulPersistenceContext 类 中 ， 
定义 了 如 下 成 员 变 量 ， 以 作 缓 存 之 用 。 


private Map<EntityKey, Object> entitiesByKey; 


private Map<EntityUniqueKey, Object> entitiesByUniqueKey; 

private EntityEntryContext entityEntryContext; 

private ConcurrentMap<EntityKey, Object> proxiesByKey; 

private Map<EntityKey, Object> entitySnapshotsByKey; 

private Map<Object, PersistentCollection> arrayHolders; 

private IdentityMap<PersistentCollection, CollectionEntry> 
collectionEntries; 

private Map<CollectionKey, PersistentCollection> 
collectionsByKey; 

private HashSet<EntityKey> nullifiableEntityKeys; 

private HashSet<AssociationKey> nullAssociations; 

private List<PersistentCollection> nonlazyCollections; 

private Мар<Со11есііопкеу, PersistentCollection> 
unownedCollections; 

private Map<Object,Object> parentsByChild; 


当 应 用 程序 调用 Session 的 CRUD 方法 以 及 调用 Criteria 接口 的 list0 时 ， 如 果 在 组 
存 中 不 存在 相应 的 对 象 ，Hibemate 就 会 把 该 对 象 加 入 到 一 级 缓存 中 。 如 果 在 Session 组 


存 中 已 经 存在 这 个 对 象 ， 就 不 需要 再 去 数据 库 加 载 而 是 直接 使 用 缓存 中 的 这 个 对 象 ， 可 
以 减少 访问 数据 库 的 频率 ， 提 高 程序 运行 的 效率 。 当 Session 在 清理 缓存 时 ，Hibernate 
会 自动 进行 脏 数据 检查 ， 根 据 缓存 中 的 对 象 的 状态 变化 来 同步 更 新 数据 库 。 

在 利用 Session 进行 持久 化 操作 时 ， 当 调用 Transaction 的 commit() 事 务 提交 方法 时 ， 
会 自动 进行 缓存 清理 和 同步 数据 库 。 

Session 接口 提供 了 以 下 几 个 跟 缓存 相关 的 方法 。 

О йо): 调用 该 方法 可 以 刷新 缓存 ， 它 与 事务 提交 commit() 方 法 有 不 同 之 处 。 
flush0 进 行 缓存 的 清理 ， 执 行 一 系列 的 SQL 语句 ， 但 是 不 会 提交 事务 ; 而 
commit() 方 法 会 先 调用 flush() 方 法 ， 然 后 再 提交 事务 . 

О setFlushMode0: 可 以 自 定义 设置 清理 缓存 的 时 间 点 。 

О getFlushMode0: 可 以 获取 当前 缓存 清理 的 模式 。 

持久 化 生命 周期 主要 包括 以 下 几 种 状态 。 

(1) 瞬时 状态 (tansient)。 

该 实例 是 刚 用 new 语句 创建 的 ， 还 没有 被 持久 化 ， 不 处 于 任何 Session 的 缓存 ， 它 
没有 对 象 标识 符 (Object Identifier, OID) 值 (主键 值 )。 其 特点 是 : 不 跟 任何 一 个 Session 
实例 关联 ， 在 数据 库 中 没有 对 应 的 记录 。 

(2) 持久 化 状态 (persistent)。 

已 经 被 持久 化 ， 加 入 到 Session 缓存 中 ， 实 例 目 前 与 某 一 个 Session 有 关联 ， 它 拥有 
对 象 标识 符 ， 并 且 可 能 在 数据 库 中 有 一 个 对 应 的 行 ，Hibernate 保证 在 同一 个 Session 实 
例 的 缓存 中 ， 数 据 库 中 的 每 一 条 记录 只 对 应 唯一 的 一 个 持久 化 实例 。 其 特点 是 ， 持久 化 
对 象 总 是 被 一 个 Session 实例 关联 。 持 久 化 实例 和 数据 库 中 相关 的 记录 对 应 。Session 在 
清理 缓存 时 ， 会 根据 持久 化 实例 的 属性 数据 变化 ， 同 步 更 新 数据 库 。 

G) 脱 管状 态 (detached). 

已 经 被 持久 化 过 ， 但 已 经 不 处 于 Session 的 缓存 中 ， 实 例 曾经 与 某 个 Session 上 下 文 
发 生 过 关联 ， 不 过 那个 上 下 文 已 经 被 关闭 ， 它 拥有 对 象 标 识 符 值 ， 并 且 在 数据 库 中 可 能 
存在 一 个 对 应 的 行 。 其 特点 是 : 不 再 位 于 Session 的 缓存 中 ， 即 它 不 再 和 Session XEK, 
但 它 拥 有 对 象 标识 符 值 。 

Session 的 基础 操作 如 下 。 

(1) save() 方 法 。 

该 方法 将 持久 化 给 定 的 瞬时 实例 ， 并 返回 该 实例 的 对 象 标识 符 值 。 当 调用 save() 方 
法 时 ， 它 会 完成 以 下 操作 。 

@ 把 瞬时 对 象 加 入 到 当前 Session 的 缓存 中 ， 使 它 变 成 持久 化 对 象 。 

@ 选 用 映射 文件 指定 的 主键 生成 器 为 此 持久 化 对 象 分 配 唯一 的 OID。 

图 计划 执行 一 个 insert 语句 , 把 此 持久 化 对 象 的 当前 属性 值 组 装 到 insert 语句 中 ,只 
有 当 Session 清理 缓存 时 ， 才 会 执行 SQL insert 语句 。 如 果 在 save 方法 之 后 修改 了 持久 
化 对 象 的 属性 值 ，Session 清理 缓存 时 会 额外 执行 SQL update 语句 。 

(2) get0 方 法 。 

该 方法 根据 给 定 的 OD 返回 一 个 持久 化 实例 .get 方法 先 检查 当前 的 Session 缓存 中 

是 否 存 在 这 个 标识 符 的 持久 化 实例 ， 如 果 存 在 就 直接 返回 ， 如 果 不 存在 就 检查 二 级 缓存 


第 
5 
章 
= 
8 
3 
Б 
Ф 
基 
础 


113 


114 


中 是 否 存在 ， 如 果 存 在 就 直接 返回 ， 如 果 不 存在 ， 就 从 数据 库 中 获取 数据 返回 ， 如 果 数 
据 库 表 中 不 存在 就 返回 null。 

(3) load() 方 法 。 

该 方法 根据 给 定 得 到 的 OID 返回 一 个 持久 化 对 象 。load() 方法 先 检 查 当 前 Session 
缓存 中 是 否 存在 这 个 标识 符 值 的 持久 化 实例 ， 如 果 存 在 直接 返回 ， 如 果 不 存 在 ， 就 检查 
二 级 缓存 中 是 否 存在 ， 如 果 存 在 就 直接 返回 ， 如 果 还 不 存在 ，Hibemate 框架 不 检查 数据 
库 是 否 存在 这 个 标识 符 的 记录 ， 而 是 会 直接 创建 一 个 代理 对 象 并 返回 。 这 个 代理 对 象 只 
包含 标识 符 值 ， 没 有 其 他 属性 的 实际 数据 ， 这 种 方式 就 是 延迟 加 载 (агу load)。 注 意 : 
必须 在 Session 未 关闭 时 进行 。 

(4) delete() 方 法 。 

该 方法 把 指定 的 持久 化 实例 变 成 瞬时 状态 ， 并 从 数据 库 表 中 移 除 对 应 的 记录 。 如 果 
传 入 的 实例 是 持久 化 状态 ，Session 就 计划 执行 一 个 delete 语句 。 如 果 传 入 的 实例 是 脱 管 
状态 的 ， 就 先 让 它 和 当前 Session 关联 转变 为 持久 化 对 象 ， 再 计划 执行 一 个 delete 语句 。 

(5) update() 方 法 。 

该 方法 用 来 更 新 处 于 detached 状态 的 对 象 , 更 新 完成 后 该 对 象 转换 为 persistent 状态 。 

(6) saveOrUpdate() 方 法 。 

该 方法 同时 具有 save 和 update 的 功能 。 

持久 化 对 象 的 状态 转换 图 如 图 5.9 所 示 。 


/垃圾 回收 


/清空 标识 符 
/save(),saveOrUpdate(),persist() 


BRS] 
/delete() @ 


/save().saveOrUpdate().update(), 
merge(),lock() 


/get(),load() 
/save(),saveOrUpdate(),update(), 
persist(),merge() 


/evict(),clear(),closeO)| 


/delete() 


/merge() /垃圾 回收 


和 图 5.9 Hibernate 中 持久 化 对 象 的 状态 转换 图 


5.5 ”实体 映射 


Hibernate 在 实现 ORM 功能 的 时 候 主要 用 到 的 文件 有 : 映射 类 (*.java)、 映 射 文件 
(*.hbm.xml) 和 数据 库 配置 文件 (*.properties/*.cfg.xml)。 它 们 各 自 的 作用 如 下 。 

映射 类 〈*.java): 描述 数据 库 表 的 结构 ， 表 中 的 字段 在 类 中 被 描述 成 属性 ， 将 来 可 
以 实现 把 表 中 的 记录 映射 成 该 类 的 对 象 。 

映射 文件 (*.hbm.xml): 指定 数据 库 表 和 映射 类 之 间 的 关系 ， 包 括 映射 类 和 数据 库 


表 的 对 应 关系 、 表 字段 和 类 属性 类 型 的 对 应 关系 以 及 表 字段 和 类 属性 名 称 的 对 应 关系 等 。 

数据 库 配置 文件 (*.properties/*.cfg.xml): 指定 与 数据 库 连 接 时 需要 的 连接 信息 ， 比 
如 连接 哪 种 数据 库 、 登 录 数 据 库 的 用 户 名 、 登 录 密码 以 及 连接 字符 串 等 。 当 然 还 可 以 把 
映射 类 的 地 址 映射 信息 放 在 这 里 。 

Hibernate 使 用 POJO 类 与 数据 库 表 之 间 进 行 映射 ， 与 数据 库 表 映射 的 POJO 类 也 称 
为 实体 类 。Hibemate 映射 文件 主要 用 于 配置 实体 类 与 数据 库 表 之 间 的 映射 关系 。 在 这 个 
配置 文件 中 ， 需 要 指定 类 / 表 映 射 配置 、 主 键 映 射 配置 和 属性 /字段 映射 配置 等 。 映 射 文 
件 的 命名 方式 一 般 为 className.hbm.xml。 类 cn.edu.buu.model.User 的 映射 文件 user.hbm. 
xml 的 配置 内 容 参见 例 5.2。 

如 例 5.2 所 示 ， 在 user.hbm.xml 文件 中 使 用 class 元 素 指 定 了 cn.edu.buu.model.User 
类 所 对 应 的 数据 库 表 为 User; 使 用 id 元 素 指定 了 数据 库 表 主 键 为 cn.edu.buu.model.User 
类 中 的 id 属性 , 名 称 为 userld; 使 用 property 元 素 指定 了 User 表 中 其 他 的 几 个 字段 信息 ， 
名 称 分 别 为 u_register、u_name、u sex、u password、u phone.u qq\u рау one.u pay two. 
u рау three 和 u_pay_four， 它 们 分 别 对 应 于 cn.edu.buu.model.User 类 中 的 username, 
realname、sex、password、phone、qq、pay_one、pay_two、pay_three 和 рау four 属性 。 
正如 例 5.2 userhbm.xml 映射 文件 所 示 ， 在 Hibernate 映射 文件 中 可 以 使 用 
hibernate-mapping, class, id, generator 和 property 等 元 素来 配置 POJO 类 与 数据 库 表 之 
间 的 映射 关系 。 

映射 文件 中 的 根 元 素 为 hibernate-mapping， 每 一 个 hbm xml 文件 都 有 唯一 的 一 个 根 
元 素 ， 该 元 素 包含 一 些 可 选 的 属性 ， 其 属性 主要 包括 如 下 几 个 。 

О package: 指定 一 个 包 前 级 ， 如 果 在 映射 文档 中 没有 指定 全 限定 的 类 名 ， 就 使 用 
这 个 作为 包 名 。 
schema: 数据 库 schema 的 名 称 。 
catalog: 数据 库 catalog 的 名 称 。 
default-cascade: 默认 的 级 联 风格 ， 默 认为 none. 
default-access: Hibernate 用 来 访问 属性 的 策略 。 
default-lazy: 指定 了 未 明确 注 明 lazy 属性 的 Java 属性 和 集合 类 ，Hibernate 会 采 
取 什 么 样 的 默认 加 载 风格 ， 默 认为 true. 
auto-import: 指定 我 们 是 否 可 以 在 查询 语言 中 使 用 非 全 限定 的 类 名 ,默认 为 true, 
如 果 项 目 中 有 两 个 同名 的 持久 化 类 ， 则 最 好 在 这 两 个 类 的 对 应 的 映射 文件 中 配 
置 为 false。 

使 用 class 元 素 可 以 定义 类 : 该 元 素 是 根 元 素 的 子 元 素 , 用 于 定义 一 个 持久 化 类 与 数 
据 表 的 映射 关系 ， 如 下 是 该 元 素 包含 的 一 些 可 选 的 属性 。 

О пате: 持久 化 类 (或 者 接口 ) 的 Java 全 限定 名 , 如 果 这 个 属性 不 存在 , 则 Hibernate 

将 假定 这 是 一 个 非 POJO 的 实体 映射 。 
О table: 对 应 数据 库 表 名 。 
О discriminatorvalue: 默认 和 类 名 一 样 ， 一 个 用 于 区 分 不 同 的 子 类 的 值 ， 在 多 态 
行为 时 使 用 。 
О mutable: 表明 该 类 的 实例 是 可 变 的 或 者 是 不 可 变 的 。 
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schema: # & 7 Æ <hibernate-mapping> Ф 48 Z #5 schema £ F. 

catalog: 覆盖 根 元 素 <hibernate-mapping> 中 指定 的 catalog £ +. 

proxy: 指定 一 个 接口 ， 在 延迟 装载 时 作为 代理 使 用 。 

dynamic-update: 指定 用 于 UPDATE 的 SQL 将 会 在 运行 时 动态 生成 ， 并 且 只 更 

新 那些 改变 过 的 字段 。 

dynamic-insert: 指定 用 于 INSERT 的 SQL 将 会 在 执行 时 动态 生成 ， 并 且 只 包含 

那些 非 空 值 字段 。 

select-before-update: 指定 Hibemate 除非 确定 对 象 真正 被 修改 了 ( 如 果 该 值 为 tue ), 

否则 不 会 执行 SQL UPDATE ЖЕ. 在 特定 场合 ( 实际 上 ,， 它 只 在 一 个 瞬时 对 象 关 

联 到 一 个 新 的 Session 中 时 执行 的 update0 中 生效 ), 这 说 明 Hibernate 会 在 UPDATE 

之 前 执行 一 次 额外 的 SQL SELECT 操作 ， 来 决定 是 否 应 该 执行 UPDATE.。 

polymorphism: 多 态 ， 界 定 是 隐 式 还 是 显 式 的 多 态 查询 。 

where: 指定 一 个 附加 的 SQL WHERE 条 件 ， 在 抓 取 这 个 类 的 对 象 时 会 增加 这 

个 条 件 。 

persister: 指定 一 个 定制 的 ClassPersister。 

batch-size: 指定 一 个 用 于 根据 标识 符 (identifier) 抓 取 实例 时 使 用 的 batch size 
( 批 次 抓 取 数量 )。 

optimistic-lock: 乐观 锁定 ， 决 定 乐观 锁定 的 策略 。 

lazy: 通过 设置 lazy="false"， 所 有 的 延迟 加 载 (lazy fetching) 功能 将 未 被 激活 
(disabled )。 

check: 这 是 一 个 SQL 表达 式 , 用 于 为 自动 生成 的 schema 添加 多 行 ( multi-row ) 

约束 检查 。 

abstract: 用 于 在 <union-subclass> 的 继承 结构 (hierarchies) 中 标识 抽象 超 类 。 


可 以 使 用 id 元 素来 定义 主键 。Hibernate 使 用 OID (Object Identifier， 对 象 标 识 符 ) 
来 标识 对 象 的 唯一 性 , OID 是 关系 数据 库 中 主键 在 Java 对 象 模型 中 的 等 价 物 , 在 运行 时 ， 
Hibernate 根据 OID 来 维持 Java 对 象 和 数据 库 表 中 记录 的 对 应 关系 。 


口 
口 
口 
口 


口 


name: 持久 化 类 的 标识 属性 的 名 字 。 

type: 标识 Hibernate 类 型 的 名 字 。 

column: 数据 库 表 的 主键 字段 的 名 字 。 

unsaved-value: 用 来 标识 该 实例 是 刚刚 创建 的 ， 尚 未 保存 。 可 以 用 来 区 分 对 象 
access: Hibernate 用 来 访问 属性 值 的 策略 。 


如 果 表 使 用 联合 主键 ， 那 么 可 以 映射 类 的 多 个 属性 为 标识 符 属性 。<composite-id> 
元 素 接受 <key-property> 属 性 映射 和 <key-many-to-one> 属 性 映射 作为 子 元 素 。 
以 下 定义 了 两 个 字段 作为 联合 主键 。 


<composite-id> 


<key-property name="username" /> 
<key-property name="password" /> 


</composite-id> 


可 以 使 用 generator 元 素来 设置 主键 生成 方式 。 该 元 素 的 作用 是 指定 主键 的 生成 器 ， 
通过 一 个 class 属性 指定 生成 器 对 应 的 类 (通常 与 <id> 元 素 结合 使 用 )， 其 中 ，native 是 
Hibernate 主键 生成 器 的 实现 算法 之 一 ， 由 Hibemate 根据 底层 数据 库 自 行 判断 采用 
identity, hilo, sequence 其 中 一 种 作为 主键 生成 方式 。 


<іа name="id" солштп="тр" type="integer"> 


<generator class="native" /> 


</id> 


Hibernate 提供 的 内 置 生成 器 主要 如 下 。 


(у и и и ин и и ниши 


assigned 算法 ; 
hilo 算法 ; 
seqhilo 算法 ; 
increment 算法 ; 
identity 算法 ; 
sequence 算法; 
native 算法 ; 
uuid.hex 算法 ; 
uuid.string 算法 ; 
foregin 算法 ; 
select 算法 。 


可 以 使 用 property 元 素来 定义 持久 化 类 的 属性 与 数据 库 表 字段 之 间 的 映射 ， 该 元 素 
主要 包含 如 下 属性 。 


о 


a 
a 
a 


оссо о 


оо 


пате: 持久 化 类 的 属性 名 ， 以 小 写字 母 开头 。 

column: 数据 库 表 的 字段 名 。 

type: Hibernate 映射 类 型 的 名 字 。 

update: 表明 用 于 UPDATE 的 SQL 语句 中 是 否 包含 这 个 被 映射 的 字段 ， 默 认为 
true。 

insert: 表明 用 于 INSERT 的 SQL 语句 中 是 否 包含 这 个 被 映射 的 字段 ， 默 认为 
true。 

formula: 一 个 SQL 表达 式 ， 定 义 了 这 个 计算 属性 的 值 。 

access: Hibernate 用 来 访问 属性 值 的 策略 。 

lazy: 指定 实例 变量 第 一 次 被 访问 时 ， 这 个 属性 是 否 延迟 抓 取 ， 默 认为 false. 
unique: 使 用 DDL 为 该 字段 添加 唯一 的 约束 ， 此 外 ， 这 也 可 以 用 作 property-ref 
的 目标 属性 。 

not-null: 使 用 DDL 为 该 字段 添加 可 否 为 空 的 约束 。 

optimistic-lock: 指定 这 个 属性 在 进行 更 新 时 是 否 需 要 获得 乐观 锁定 ( 换 句 话说 ， 
它 决定 这 个 属性 发 生 脏 数据 时 版 本 version 的 值 是 否 增长 )。 


access 属性 用 来 控制 Hibernate 如 何在 运行 时 访问 属性 。 默认 情况 下 ,Hibemate 会 使 
用 属性 的 get/set 方法 对 。 如 果 指 明 access="field"， 则 Hibernate 会 忽略 get/set 方法 对 ， 
直接 使 用 反射 来 访问 成 员 变量 。 
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5.6 实体 之 间 联 系 的 映射 


关系 数据 库 中 ， 实 体 之 前 的 联系 有 三 种 : 一 对 一 的 联系 、 一 对 多 的 联系 和 多 对 多 的 
联系 。 不 同 种 类 联系 的 映射 处 理 方式 不 同 。 下 面 分 别 介绍 。 


Ф--5.61 一 对 一 联系 的 映射 -， 


Hibernate 提供 了 两 种 映射 一 对 一 关联 关系 的 方式 : 按照 外 键 映 射 和 按照 主键 映射 。 
按照 主键 映射 的 基本 思路 是 : 让 两 个 对 象 具有 相同 的 主键 值 ， 以 表明 它们 之 间 的 一 一 对 
应 的 关系 ; 数据 库 表 不 会 有 额外 的 字段 来 维护 它们 之 间 的 关系 , 仅 通过 表 的 主键 来 关联 。 
本 节 主 要 讲解 按照 外 键 映射 。 

本 节 的 示例 采用 的 是 问题 -答案 , 在 数据 库 中 的 表 分 别 question 和 answer。 表 question 
和 表 answer 的 逻辑 结构 分 别 如 图 5.10 和 图 5.11 所 示 。 


4 E MySQL ње E 
4 8 answer_question 
"Па 


nswer_ques.. question @answer_ ques.. 
= om Ege ames Бала Hanen imeen Раш тв + Ft 


wer @answer_questi.. | ЕД question 


E answer a али ЕНА ЙН 
seso [== [жаі [она [изне ва [тв [50.5 
уз — = == ка два 不 是 null 
Ма question jd char ә 0 У] ^1 
> i ma question _content varchar 2048 0 加 
LEG › answer id varchar 32 • У 


£ 8510 | question 的 逻辑 结构 


4 E MySQL zæ answer @answer questi.. question € 
+ Ë answer_question 
52 


er_ques. 


= = о ©наШнет нез imen "Палео imen Раш tHe ЋЕ 
S anme [кш азі Тэма Генна [аа [s |sQ. а] 
Е question ма = 一 - 
0 оо HE = == 长 度 JaA FS null 
озн = +- о 0 ШЫ] ^1 
ыр] answer content varchar 2048 0 М 
> В жж 
ове 


СҮ 图 5.11 | answer 的 逻辑 结构 


问题 和 答案 属于 一 对 一 的 联系 。 在 数据 库 中 表 的 逻辑 结构 设计 上 ， 表 question 中 使 用 字 
Ez answer id 引用 了 表 answer 的 字段 answer id， 后 者 也 是 表 answer 的 主键 。 对 于 一 对 一 的 
联系 , 在 数据 库 中 , 一 般 采 用 单 向 联系 的 存储 方式 。 在 本 例 中 , 在 表 question 中 , 通过 question 
能 够 找到 相应 的 answer 的 id (字段 answer id)。 而 在 面向 对 象 程序 设计 中 ， 实 体 类 与 实体 
类 之 间 的 联系 , 可 以 设计 成 单 向 联系 , 也 可 以 设计 为 双向 联系 , 这 取决 于 设计 者 的 设计 策略 
和 应 用 程序 所 属 业务 领域 的 具体 情况 。 在 程序 中 , 对 应 的 实体 类 Questionjava 和 Answerjava 
如 例 5.8 和 例 5.9 所 示 ， 对 应 的 映射 文件 如 例 5.10 和 例 5.11 所 示 。 


[ 例 5.8] Question java 


package cn.edu.buu.oor.entity.pojo; 
import java.io.Serializable; 


[9] 5.9] Answerjava 


[ 例 5.40] Question.hbm.xml 


Шож 


әјешәдін 


== Bit 


[0] 5.44] Answer.hbm.xml 


[9] 5.42] SingleTableApplication.java 


[ 例 5.43] MultiTableApplication java 


ihoa 


әјешәдін 


= 


a 


1о-ыама ві -1ајә-0-ъ-жо-90 0-17 леа 


ааыа а р n 
нт» sagetasioxaros ин др и чуул еуин es те ла яо" 
(+= 有 23, 2017 10:28:17 + org.hibernate.cfg.Environment <clinit> 


:18 TF org.hibernate, annotations. соттоп. reflection. Java. JavaReflectionManager <clinit> 
Hibernate Commons Annotations {5.0.1.Final} 
:18 r+ org.hibernate,engine. jdbc. connections,internal .DriverManagerConnectionproviderIapl configure 
Using Hibernate built-in connection pool (not for production use!) 
+= 有 23, 2017 10:28:18 Е+ org.hibernate.engine.jdbc.connections.internal.DriverManagerconnectionProviderImpl buildcreator 
INFO: нян1001095: using driver [com.mysql.jdbc.Driver] at URL [jébc:mysql://localhost:3306/answer_question] 
十 = 月 23，2917 10:28:18 F+ org.hibernate.engine.jdbc.connections.internal.DriverManagerConnectionProviderImp] buildcreator 
INFO: 0010001001: Connection properties: (user=root, passwond=****, characterencoding=utf8) 
\+=л 23, 2017 10:28:18 ++ org.hibernate.engine.jdbc.Connections.internal.DriverManagerconnectionproviderImpl buildcreator 
INFO: ненөөө1өөз: Autocommit mode: false 
ЖЕМ 23, 2017 10:28:18 ++ org.hibernate.engine. jdbc. connections, internal.PooledConnections <init> 
INFO; неневез15: Hibernate connection pool size: 20 (min=1) 
+2423, 2017 10:28:18 ++ org.hibernate.dialect.Dialect <init> 
dialect; org.hibernate,dialect.HysQLDialect 
:28:18 Е+ org.hibernate, id.UUIOHexGenerator <init) 
WAAN: нинөгөзөэ: Using org.hibernate.id.UUIOHexGenerator which does not generate IETF RFC 4122 compliant UUID values; consider using org.hib 
кеп, 
{44-'пи11', апамег=' 16007. 15. '} 
ине. 
{id= ' Ba8bc1696081331d016081331ede0000", апзмеге'16005. 0, '} 
smeoaenun, 
(id= sa8bc1696081331d016081331ede0000" , answor=' хжезөдөх. '} 
Hibernate: insert into answer (answer_content, answer_id) values (7, 2) 
hibernate: insert into question (question_content, answer_id, question_id) values (?, ?, ?) 
Hibernate: update answer set answer_content=? where answer_id=? 
Hibernate: update answer set answer_contenta? where answer id=? 
елла а, {id= '8a8bc1696081331d016081331ede0009", answers 2а ё10007'} 


O #8512 015.12 运行 结果 


= E roians = Javadoc š бебин V sen С сото: шуя 


1 usa poronl Cg evenaren menem GO кте изе 
~ += 有 23, 2017 10:30:15 r+ org.hibernate.engine.jdbc.connections.internal.Pooledconnections <init> 

LINO: менаов115: Hibernate connection pool size: 20 (min=1) 

+= 有 23, 2017 10:39:15 r+ org.hibernate.dialect.Dialect <init> 

INFO: миноводоо: Using dialect: org-hibernate.dialect.MySQLDialect 

(+= 有 23, 2017 10:39:15 Е+ org hibernate. id.UUIDHexGenerator cinit> 

WARN: HHH000409: Using org-hibernate. id. UUIDHexGenerator which does not generate IETF RFC 4122 compliant UUID valu 
(+= 有 23, 2017 10:30:16 Е+ org.hibernate.hąl.internal.QueryTranslatorFactoryInitiator initiateservice 
INFO: НННӨВ0з97: Using ASTQueryTranslatorFactory 
Hibernate: select questionl_.question_id as questionl_1_, questioml_.question_content as question2_1_, questionl_.ənswer_id as answer_i3_1_ 
1, Fale HE, {id= "402880e660366dba0160366dbde00001', question='1+1=: `, answerId="402880e660366dba0160366dbdbco000 `] 
Hibernate: select question1_.question_id as question1_1_@_, злзмего „апзмег 14 аз апзмег 1101, questionl_.question content as question2_1 
зета, (id= A02880e660366dba0160366dbdee0001' , question='1+1=; ', answer1d=' 462880e666366dDa6166366dbdbc8e69'] 
2 再 到 的 和 案 ，{id='4928898666366dba6169366dbdbc9998' ，answer='2'] 
Hibernate: select questionl_.question_content as со] 0.0, answere_.answer_content as col 2 
3.988, (question='1+1=: `, апмег='2'. 
| алате, (диез опе: зави; 
3.2mm. {question='219+690=?" , 
3.3MM. {question='588+963=?', апзмег='1551'} 
3.amsimim, {question='705+740=? 
3.58386%, (ашез опи 477%465- 
3.68569%, (question='456+470=. 
з.7тиюат. {question='767+829=?", 
эвини. (question='288+256=?', 
ээжи. {question='674+693=?", 
з.леязена, (question=`859+8-? 
3.11834%, (question='532+122- 
Златара. (question='488+594=?", 
зато, {диезї1оп='428+756=?', 
Златан. (question='548+529=?', 
3215836988, (question='140+619=? 


consider using org.hib 


from answer answere_ cross join question ques 


513 _ 例 5.13 运行 结果 
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一 对 多 联系 的 映射 ， 采 用 的 案例 数据 库 是 电子 商务 数据 库 。 其 中 一 个 用 户 可 以 有 多 
个 订单 ， 一 个 订单 可 以 有 多 个 订单 详情 。 数 据 库 及 表 的 结构 如 图 5.14 所 示 。 


P book @ecommerce (Му. 
Dae Bar barh оет "але «ат Pte +» 


= ај ЕЗШ ТЕЗЕ ЗЕ 
= 


= =Z ова хамі 
"E a - >” ° ла 
Бит часта æ о 
bpublsh = wm о 
bname чиди ю o 
b.author.one sr 和 o 
DP user @ecommerce (Му... b_author two varchar 50 ° 
E maen bum йш илео simerc Pre + rs 上 下 下 р sra 区 一 
数 юю |жа |e |мен ла тп ума ышы < = É. 
ливене ж ю о 
Ё фе = р. ва яе 1 оры = Бааз 
Е н £ о гта int u ° 
+ а == > рл» уаш ю o 
£ та чем а o == = БЕ 
upawword varchar æ o = юн ° о 
Ж ада энде 5 o элте том ° o 
标 upay опе varchar 50 o b_discription varchar 1000 0 
如 озумо = ю o о ваља qar ш о 
Ж үйнө === ю o bype Nai » о 
教 u pay four varchar ю 0 pkture varchar wo о 
А 
程 Ë 
(a) # User (b) 表 Book 
P orders @ecommerce (М... 
L | Beor бата „Паво dwane amem Sre ++ 
|en жє [жш [ema Ген [so s) 
名 кя а 。 不 是 null 
1 n o ^1 
o bunihen а varnar ю o 
o_count loat ° ° 9 orderdetails @ecommer- 
= m к о dmo Филе еннет PHE вета 
aa mt u o 
оле аи ° о 
охаш» varchar 10 0 a DDR FÆ пи! 
oudolver varnar ю о "rs. п о ^\ 
о деђотее | float о ° оја int u ° 
upay varchar 50 ° Ja panne 20 0 
ULinvoicetype varchar 10 ° рее юа Ы ° 
uJnvoicetitie varchar 50 ° еу. m п ° 
(c) 表 Orders (d) 表 OrderDetails 


P address @ecommerce (-. 


= wikim mas „аи imen imeen +e Ф не dTe 
[en mar |зна [wees |= [ee |sq sms 


= жт кв ёт жепш 
uw... u o 团 ^1 
uid int 11 0 У 
zipcode varchar 12 0 7 
province varchar 20 0 У 
country varchar 20 0 [У] 
township varchar 30 0 ЕД 
street varchar 30 0 V 
tnumber varchar 2 0 У 
remarks varchar 50 0 巴 
Се) 表 Address 


5.14 电子 商务 数据 库 的 表 结构 
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在 程序 中 定义 的 实体 类 包括 : User. Book, Orders, Orderdetails, Address 等 。 可 以 
看 出 ， 上 述 类 与 案例 数据 库 中 的 表 基 本 是 对 应 的 。 在 实体 类 User 的 定义 中 ,除了 存储 与 
用 户 有 关 的 信息 之 外 ， 还 有 两 个 成 员 变 量 ， 用 于 存储 用 户 的 送 货 地 址 和 订单 信息 ， 如 例 


5.14 所 示 。 


[ 例 5.14] Userjava 


同 理 ， 在 实体 类 Orders 的 定义 中 ， 也 定义 了 订单 所 属 的 用 户 、 送 货 地 址 以 及 包含 的 
订单 详情 信息 ， 如 例 5.15 所 示 。 
[ 例 5.15] Orders java 


пи әјешәдін Atant 


在 实体 类 订单 详情 Orderdetails 的 定义 中 ， 包 含 该 订单 详情 所 属 的 订单 Orders 以 及 
该 订单 详情 中 的 书籍 Book， 如 例 5.16 所 示 。 


[ 例 5.16] Orderdetails.java 


上 述 实体 类 的 映射 文件 Userhbm.xml、Orders hbm.xml、Orderdetails hbm.xml 分 别 
如 例 5.17 一 例 5.19 所 示 。 


[ 例 5.17] Userhbm.xml 


[ 例 5.48] Orders.hbm xml 


Bit әјешәдін 


[9] 5.19] Orderdetails.hbm.xml 


Шож 
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== 


[9] 5.20] One2ManyMappingApplication java 


1] 5.20 的 运行 结果 如 图 5.15 所 示 。 


т 
ја багрем [еа лаик 


nton) CVpregom Пенн неее (мт SB Тв, п 
ото : Using dialect: org.hibernate.dialect.MysQtDialect а= 
лда 
шетале, 
#31 
IMATHIA 
1 
rana, 
{ olde 1, 
ocount= 123.35, 
oDate= 2016-06-18, 
ostatus= "хя" 
Teena, 
[ 
4 
dīd= 29, 
quantity= Я 
Бооквуві каве, ( 
ш "веөвѕозтүн", 9787302284660", MEAPAMH', ает+инеїшнтн:хми+жөшл', в", вал, '}}, 
dīd= зе, 
quantity= 
Бооквувта- Este, ( 
| вевмо.1946', 9787302363528", ж#н ', жзтинилетнта-ижынтанитаманна нин", наа", аб, ае), 
йа« з, 
quantity= s 
bookByBId= шаве, ( 
brd= 'В@160М5ЕХТ', 9787115403@90', Amami’, 5рагкиахтшен', +#', автан", аах] 


和 6515 ,一 对 多 映射 应 用 程序 的 运行 结果 


多 对 多 的 案例 采用 学 生 和 课程 实例 : 一 个 学 生 可 以 选择 多 门 课程 ， 一 门 课程 也 可 以 
被 多 个 学 生 选 择 。 数 据 库 名 称 为 sports_class_database， 其 中 包含 三 张 表 : student, 
sports_class 和 stu_spo_relationship， 这 三 张 表 分 别 存储 学 生 人 信息、 体育 课程 信息 、 学 生 选 
课 信 息 ， 其 逻辑 结构 分 别 如 图 5.16 一 图 5.18 所 示 。 
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4 8 MySQL уза P student @sports_class_d.. | 
= Озе Ber неъ Ре з алею о PHE 个 上 移 + ЋЕ 


长 度 Очат + null 


5 patent application L u о У] 2: 
4 8 sports class database number varchar B 0 [v] 
ЕЈ пате varchar 32 o [7 
E sports_class = 
ЁЁ stu spo pelationship major varchar 3 0 [v] 
stude password varchar 6 0 国 
+ 
ХҮ 8516 3 student 结构 
4 # MySQL жг sports Саз @spors ca- 
> # answer_question | > | Бур | 
= аста = Эва Вее яны „Ршюно 二 插入 栏 位 删除 栏 位 Гаев в + 下 移 
= beijing | == 
= ecommerce 
9 information_schema = == кт маж JSE null 
ем C 
8 patent application | int 11 0 加 РІ 
4 Ë sports_class_database name varchar 60 0 [9] 
И ЕЈ 
Е == commons varchar 255 0 [9] 
E stu_spo_relatlonsnip теасћег_ пате varchar ЕЈ 0 [9] 
E student 
о 视图 
ХҮ 图 5.17_, 表 sports_class 结构 
4 Ñ| MySQL Йй P stu_spo_relationship @s- | 
> Ë answer_question 
B эта Уяа 国保 让 ae iamen maen imeen Раш the + 下 移 
beijing 
E ecommerce 
H oom on ema 类 型 KE ат JEE null 
studentid 
Ë patent application О int u 0 [] ^1 
4 Е sports_class_database sports_class_id int п 0 w| „2 
И ЕЈ 
E sports class 
E] stu_spo_relationship 
E student 
о 视图 


ХҮ 图 5.18_ 表 stu_spo_relationship 结构 


在 程序 中 ， 除 了 定义 学 生 类 Student 和 体育 课程 类 SportsClass 之 外 ， 还 定义 了 类 


StuSpoRelationship， 用 于 表示 二 者 之 间 多 对 多 的 关系 ， 如 例 5.21 所 示 。 
[ 例 5.21] StuSpoRelationship.java 


[9] 5.23] SportsClass.hbm.xml 
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[91 5.24] StuSpoRelationship.hbm.xml 


上 述 类 和 映射 文件 均 在 包 cn .edu.buu.mmr.entity.pojo 中 .为 了 存储 从 数据 库 中 获得 的 
表示 学 生 和 课程 之 间 的 关联 关系 ,还 定义 了 类 StudentInfo, 该 类 在 包 cn.edu.buu.mmr.entity 
中 ， 如 例 5.25 所 示 。 


[| 5.25] StudentInfo.java 


多 对 多 映射 的 应 用 程序 类 如 例 5.26 所 示 。 
[ 例 5.26] Many2ManyMappingTest.java 
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该 程序 的 运行 结果 如 图 5.19 所 示 。 


[а 
ЕТ 


СОСЕ 
ота 
ТМРО: ННН10801093: Autocommit mode: false | 
+= 有 23, 2017 11:39:34 Ьу org.hibernate.engine.jébc.connections.internal.Pooledconnections <init> 
INFO: Менове15: Hibernate connection pool size: 20 (min=1) 
+2523, 2017 11:39:34 上 = org-hibernate.dialect.Dialect cinit> 
INFO: ниноведео: Using dialect: org.hibernate,dialect.NySQLDialect 
+723, 2017 11:39:35 Fš org.hibernate.hql. internal .QueryTranslatorFactoryInitiator initiateservice | 
INFO: ННОО0297: Using ASTQueryTranslatorractory | 


яй, | 
Hibernate: select studentl .student_id as col @ 0, studentl_.number as col 1 .8 ，studenrl „паа аз col 20, studenti_.major at col 3 9_, s) 
тазша £), (studentIdz3, studentNunber='2015080321028", уїшбепїнәте=' #7, зрес1аїту=' кл гН', passvord='B88888', sportsclassrdzl; 
Hibernate: select student1_ .student id as student 120, sportsclas9 .sports class_id аз sports_c1_0_1_, studentl_.number as number2 


ли 
ялеш, (163, number='2015089321028', name="m, spocialty='S/T', password="888888"} 

enine, (1991, пале» 2962", совтопь»' 2617-2818 == ++ ', teacherNamen mEn" } 

Hibernate: select studenti .student 1d as col_@ @_, studentl_.number as col 10, studenti_.name as col 20, studenti .najor as col 3.8, s 


жиз. палета, аитлељан. 
зкодететмњег='2015886331096', збиделенаве='л', specialty='SSTH', password-'888888', sportsClassTd=3, зрогезсПаззћавен “204 
studentHumber=" 2915988331999， ,studenthane= "2" ,specialty="$# Г®', password='888888 `, sportsC1ass16=4, sportsC1assName=' ts 
SstudentNumbers'2015080331124', studentNames' EAR", specialty™ "KHIE', password='888888', sportsClassIdel, sportsClassNames' £ 
studentHumber="2015888331134" ，studenthane "到 "specialty" KAI ,password™ 888888" ,sportsClassId=2, зрогезСјазалапе=' 5 
tudentNumber="2015988331135 ° 
studentNumber='2015080331141', 
Studentiumber="2015080332007*, 
н, StudentNumber= "2015989332005", 
studentNumber='2015080332010' , 
studentHumber="2015888332816", 


5.19 ,多 对 多 映射 应 用 程序 运行 结果 


57 DAO 模式 深入 分 析 


在 4.6 节 中 ， 对 DAO 编程 模式 进行 了 简要 介绍 。DAO 编程 模式 中 ， 类 之 间 的 关系 
如 图 5.20 所 示 。 


BusinessObject 使 用 DataAccessObject 封装 DataSource 


获取 /修改 :创建 /使用 


~ | ValueObject 
| 
——— 


5.20 „ОАО 编程 模式 


在 4.6 节 中 采用 了 基于 传统 的 JDBC 进行 编程 实现 方法 ,而 在 5.3 节 第 一 个 Hibernate 
程序 中 , 则 采用 了 基于 Hibemate 的 编程 方法 来 实现 数据 访问 层 和 持久 化 功能 。 也 就 是 说 ， 
在 4.6 17 DAO 编程 模式 的 例子 中 ，DataAccessObject 类 是 类 jdbc.dao.UserDaoImpl, 
而 在 53 节 第 一 个 Hibernate 程序 中 ，DataAccessObject 类 则 为 类 cn.edu.buu.dal. 
UserDAOHibernate (参见 例 5.6). 而 BusinessObject 类 在 调用 DataAccessObject 类 的 
方法 之 前 ， 需 要 创建 DataAccessObject 类 的 对 象 。 而 创建 DataAccessObject 类 的 对 
象 一 般 需要 知道 类 的 名 称 。 最 简单 最 原始 的 做 法 , 是 在 BusinessObject 类 中 直接 使 用 
DataAccessObject 类 的 名 称 来 创建 该 类 的 对 象 (参见 例 5.7)。 这 种 方法 的 缺点 是 ， 如 
R DataAccessObject 类 发 生 了 变化 (例如 更 换 了 关系 数据 库 或 者 从 基于 JDBC 编程 
改 为 使 用 Hibernate 框架 等 )， 需 要 修改 程序 并 重新 部 署 ， 应 用 程序 的 可 维护 性 较 差 。 

比 这 种 方法 稍微 改进 一 些 的 方法 之 一 就 是 采用 设计 模式 中 的 工厂 模式 (Factory 
Pattern), LA UserDAO 为 例 (参见 例 5.5)， 该 接口 可 能 有 多 种 不 同 的 实现 类 。 一 般 的 做 
法 是 ， 定 义 一 个 工厂 类 UserDAOFactory， 在 该 类 中 定义 一 个 工厂 方法 ， 该 方法 返回 
UserDAO 的 某 个 实现 类 ， 具 体 返 回 UserDAO 的 哪 一 个 类 的 对 象 则 取决 于 具体 的 外 部 情 
况 。UserDAOFactory 类 的 定义 一 般 采 用 单 例 模式 (Singleton Pattern) 来 实现 ， 主 要 是 为 
了 保证 运行 期 间 只 有 一 个 对 象 ， 因 为 一 般 在 程序 中 不 需要 使 用 到 多 个 UserDAOFactory 
对 象 。 


5.8 ”控制 反 转 


在 实际 的 应 用 开发 中 ， 开 发 人 员 需 要 尽量 避免 和 降低 对 象 间 的 依赖 关系 ， 即 降低 耦 
合 度 。 通 常 的 业务 对 象 之 间 都 是 互相 依赖 的 ， 业 务 对 象 与 业务 对 象 、 业 务 对 象 与 持久 层 
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对 象 、 业 务 对 象 与 各 种 资源 之 间 都 存在 这 样 或 那样 的 依赖 关系 。 但 是 如 何 才能 做 到 降低 
类 之 间 的 依赖 关系 呢 ? 这 就 是 IoC 需要 解决 的 问题 。 


•-581 loC 5 DI - 


` 
: 


IoC (Inversion of Control， 控 制 反 转 ) 是 由 容器 来 控制 业务 对 象 之 间 的 依赖 关系 ， 
而 不 是 像 传统 方式 中 由 代码 来 直接 控制 。 控 制 反 转 的 本 质 是 控制 权 由 应 用 代码 转 到 了 
外 部 容器 ， 控 制 权 的 转移 即 是 所 谓 的 反 转 。 控 制 权 的 转移 带 来 的 好 处 是 降低 了 对 象 之 
间 的 依赖 程度 ， 降 低 了 调用 者 和 被 调用 者 之 间 的 耦合 程度 ， 实 现 了 松 耦 合 。 
IoC 的 实现 策略 有 以 下 两 种 。 
O ”依赖 查找 : 容器 中 的 受 控 对 象 通过 容器 的 API 来 查找 自己 所 依赖 的 资源 和 协作 
对 象 。 这 种 方式 虽然 降低 了 对 象 间 的 依赖 ， 但 同时 也 使 用 到 了 容器 的 API, Ж 
成 了 无 法 在 容器 外 使 用 和 测试 对 象 。 
О 依赖 注入 (Dependency Injection, DI): 对 象 只 提供 普通 的 方法 让 容器 去 决定 依 
赖 关 系 ， 容 器 全 权 负 责 组 建 的 装配 ， 它 会 把 符合 依赖 关系 的 对 象 通过 属性 或 者 
是 构造 函数 传递 给 需要 的 对 象 。 通 过 属性 注入 依赖 关系 的 做 法 称 为 设 值 ( setter ) 
方法 注入 ， 将 构造 子 参 数 传 入 的 做 法 称 为 构造 (constructor ) 子 注入 。 
依赖 注入 的 优点 是 : 查询 依赖 操作 和 应 用 代码 分 离 ， 受 控 对 象 不 会 使 用 到 容器 的 特 
定 的 API， 这 样 受 控 对 象 可 以 搬出 容器 单独 使 用 。 


682 oC 模式 编程 示例 

IoC 代表 的 是 一 种 思想 ， 也 是 一 种 开发 模式 ， 不 是 具体 的 开发 方法 。 要 理解 IoC 的 
概念 ， 最 简单 的 方式 就 是 看 实际 应 用 。 下 面 将 着 重 介绍 几 个 实例 来 讲解 ТоС 的 内 涵 。 

开发 一 个 应 用 系统 时 ， 会 需要 开发 大 量 的 Java 类 ， 系 统 将 会 通过 这 些 Java 类 之 间 的 相 
互 调 用 来 产生 作用 。 类 与 类 之 间 的 调用 关系 是 系统 类 之 间 最 直接 的 关系 。 因 此 ， 可 以 将 系统 
中 的 类 分 为 两 类 : 调用 者 和 被 调用 者 。 仍 以 РАО 编程 模式 (参见 图 520) 为 例 ， 业 务 层 
(上 层 ) 中 的 对 象 BusinessObject 需要 使 用 数据 访问 层 (下 层 ) 中 的 对 象 DataAccessObject。 
这 种 上 层 对 象 调用 下 层 对 象 的 方法 在 多 层 软件 架构 中 是 非常 常见 的 现象 。 

目前 调用 方法 总 共有 三 种 : 四 自己 创建 ; 工厂 模式 ， @ 外 部 注入 。 其 中 ， 外 部 注 
入 即 为 控制 反 转 / 依 赖 注 入 模式 (IoC/DI)。 可 以 用 三 个 形象 的 东西 来 分 别 表示 它们 ， 就 
Æ new, get, sete MEX, new 表示 自己 创建 ;get 表示 主动 去 取 〈 即 工厂 ); set 表示 
是 被 别人 送 进来 的 〈 即 注入 )。 其 中 ，get 和 set 分 别 表示 了 主动 去 取 和 等 待 送 来 两 种 截 
然 相反 的 特性 ， 这 三 个 单词 代表 了 三 种 方法 的 思想 精髓 。 

无 论 是 哪 一 种 方法 ， 都 存在 两 个 角色 ， 那 就 是 调用 者 和 被 调用 者 。 下 面 通过 实例 来 
讲解 这 三 种 方法 的 具体 含义 。 首 先 ， 设 定 调用 对 象 为 学 生 对 象 Student， 被 调用 者 对 象 为 
图 书 对 象 Book， 要 设计 的 代码 功能 是 学 生 学 习 图 书 。 一 般 习 惯 于 一 种 思维 编程 方式 : 接 
口 驱动 ， 可 以 提供 不 同 灵活 的 子 类 实现 。 有 具体 实现 代码 如 例 5.27 所 示 。 


[01 5.27] Book 接口 和 实现 类 


下 面 将 用 三 种 不 同 的 方法 调用 图 书 类 。 


(1) new 一 一 调用 者 自身 创建 。 
Student 要 学 习 BookA, 就 要 定义 一 个 learnBookA(0 的 方法 ,并 自己 来 创建 BookA 


的 对 象 ， 同样 ， 要 学 习 BookB， 就 要 定义 一 个 learnBookB() 的 方法 ， 并 自己 来 创建 


BookB 的 对 象 。 然 后 建立 一 个 测试 类 Test.java 来 创建 一 个 Student 对 象 ， 可 以 分 别 
调用 learnBookA() 和 learnBookB() 方 法 来 分 别 执行 两 本 书 的 学 习 过 程 。 有 具体 实现 代 


码 如 例 5.28 所 示 。 
[ 例 5.28] 学 生 类 和 测试 运行 
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该 方法 在 调用 者 Student 需要 调用 被 调用 者 IBook 时 ， 需 要 由 自己 创建 一 个 
IBook 对 象 。 这 种 做 法 的 缺点 是 ， 无 法 更 换 被 调用 者 ， 并 且 要 负责 被 调用 者 的 整个 生 
命 周期 。 

(2) get 一 一 工厂 模式 。 

一 切 对 象 都 由 自己 创建 的 缺点 是 : 每 一 次 调用 都 需要 自己 来 负责 创建 对 象 ， 创 建 的 
对 象 会 到 处 分 散 ， 造 成 管理 上 的 麻烦 ， 比 如 异常 处 理 等 。 因 此 ， 可 以 将 对 象 创建 的 过 程 
提取 出 来 ， 由 一 个 工厂 《Factory) 统 一 来 创建 ， 需 要 什么 对 象 都 可 以 从 工厂 中 取得 。 

例如 例 5.29 中 , 创建 了 一 个 工厂 类 BookFactory, 为 该 类 添加 两 个 函数 getBookA() 
和 getBookB()， 分 别 用 于 创建 BookA 和 BookB 的 对 象 。 然 后 再 创建 Student 中 
learnBookA() 和 learnBookB() 的 方法 ， 改 为 分 别 在 该 工厂 类 中 取得 这 两 个 对 象 。 具体 实 
现代 码 如 例 5.29 所 示 。 


[ 例 5.29] 图 书 工厂 和 学 生 类 及 测试 运行 


此 时 与 第 一 种 方法 的 区 别 是 ， 多 了 一 个 工厂 类 (BookFactory)， 并 将 Student 中 创建 
对 象 的 代码 提取 到 了 工厂 类 ，Student 直接 从 工厂 类 中 取得 要 创建 的 对 象 。 这 种 方法 的 优 
点 是 : 实现 了 对 象 的 统一 创建 , 调用 者 无 须 关 心 对 象 创 建 的 过 程 , 只 管 从 工厂 中 取得 即 可 。 

这 种 方法 实现 了 一 定 程度 的 优化 ， 使 得 代码 的 逻辑 也 更 趋向 于 统一 。 但 是 ， 对 象 的 
创建 依然 不 灵活 ， 因 为 对 象 的 取得 完全 取决 于 工厂 ， 又 多 了 中 间 一 道 工序 。 

(3) set 一 一 外 部 注入 。 

显然 ， 第 一 种 方式 依赖 于 被 调用 者 对 象 ， 第 二 种 方式 依赖 于 工厂 ， 都 存在 依赖 性 。 
为 了 彻底 解决 依赖 性 的 问题 ， 取 消 了 工厂 类 ， 并 仅 为 Student 添加 一 个 学 习 的 方法 
leamBook()， 输 入 的 参数 是 接口 类 型 IBook。 在 使 用 Student 的 方法 时 ， 先 创建 IJBook 的 
具体 对 象 , 然后 再 把 该 对 象 作为 leamBook() 的 输入 参数 注入 Student, 调用 接口 Book 的 
统一 方法 leam0) 即 可 完成 学 习 过 程 。 具 体 实现 代码 如 例 5.30 所 示 。 


[ 例 5.30] 学 生 类 及 测试 运行 


这 样 就 完全 简化 了 Student 类 的 方法 ，leamBook() 的 方法 不 再 依赖 于 某 一 个 特定 的 
Book， 而 是 使 用 了 接口 类 IBook， 这 样 只 要 在 外 部 创建 任意 IBook 的 实现 对 象 输入 到 该 
方法 即 可 ， 使 得 Student 类 完全 解脱 了 与 具体 某 一 种 Book 的 依赖 关系 。 例 5.29 中 的 
Testjava， 分 别 创建 了 bookA 和 bookB 对 象 ， 同 样 都 可 以 调用 Student 的 ІеагпВоок()27 
法 ， 使 得 Student 变 得 完全 通用 。 

可 见 ，set 一 一 外 部 注入 方式 完全 抛 开 了 依赖 关系 的 柳 锁 ， 可 以 自由 地 由 外 部 注入 ， 
这 就 是 IoC, 将 对 象 的 创建 和 获取 提前 到 外 部 , 由 外 部 容器 提供 需要 的 组 件 。 在 基于 Java 
平台 进行 企业 级 应 用 开发 时 ，Spring 是 使 用 最 广泛 的 支持 IoC 与 DI 的 开源 框架 。 
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5.9 Spring 框架 


Ф - 5.9.1 Spring 框架 简介 - -， 


Spring 是 一 个 开源 框架 ， 是 为 了 解决 企业 应 用 程序 开发 复杂 性 而 创建 的 。 框 架 的 主 
要 优势 之 一 就 是 分 层 架 构 。 分 层 架 构 允 许 开发 人 员 选 择 使 用 哪 一 个 组 件 ， 同 时 为 J2EE 
应 用 程序 开发 提供 集成 的 框架 。 

Spring 是 一 个 开源 的 轻 量 级 Java SE (Java 标准 版 本 ) /Java EE (Java 企业 版 本 ) ЈЕ 
发 应 用 框架 ， 目 的 是 用 于 简化 企业 级 应 用 程序 开发 。 应 用 程序 是 由 一 组 相互 协作 的 对 象 
组 成 。 在 传统 应 用 程序 开发 中 ， 一 个 完整 的 应 用 是 由 一 组 相互 协作 的 对 象 组 成 。 所 以 开 
发 一 个 应 用 除了 要 开发 业务 逻辑 之 外 ， 最 多 的 是 关注 如 何 使 这 些 对 象 协作 来 完成 所 需 功 
能 ， 而 且 要 低 耦 合 、 高 内 聚 。 业 务 罗 辑 开发 是 不 可 避免 的 ， 就 需要 有 个 框架 能 够 帮助 创 
建 对 象 及 管理 这 些 对 象 之 间 的 依赖 关系 。 可 能 有 人 说 ， 比 如 “抽象 工厂 、 工 三 方法 设计 
模式 ”不 也 可 以 创建 对 象 ? “生成 器 模式 ”处 理 对 象 间 的 依赖 关系 ， 不 也 能 完成 这 些 功 
能 吗 ? 这 些 方 法 需要 创建 男 一 些 工 厂 类 、 生 成 器 类 ， 又 要 另外 管理 这 些 类 ， 增 加 了 程序 
员 的 负担 。 如 果 能 通过 配置 方式 来 创建 对 象 ， 管 理 对 象 之 间 依 赖 关系 ， 不 需要 通过 工厂 
和 生成 器 来 创建 及 管理 对 象 之 间 的 依赖 关系 ， 这 样 就 减少 了 许多 工作 ， 加 速 了 开发 。 
Spring 框架 刚 出 来 时 主要 就 是 完成 这 个 功能 。 

可 以 认为 Spring 是 一 个 超级 黏合 平台 ， 除 了 自己 提供 功能 外 ， 还 提供 黏合 其 他 技术 
和 框架 的 能 力 ， 从 而 使 开发 者 可 以 更 自由 地 选择 到 底 使 用 什么 技术 进行 开发 。 而 且 无 论 
是 Java SE (C/S 架构 ) 应 用 程序 还 是 Java EE (B/S 架构 ) 应 用 程序 都 可 以 使 用 这 个 平台 
进行 开发 。 

传统 程序 开发 ， 创 建 对 象 及 组 装 对 象 间 依赖 关系 由 开发 人 员 在 程序 内 部 进行 控制 ， 
这 样 会 加 大 各 个 对 象 间 的 耦合 ， 如 果 开发 人 员 要 修改 对 象 间 的 依赖 关系 就 必须 修改 源 代 
码 ， 重 新 编译 、 部 署 ， 而 如 果 采 用 Spring， 则 由 Spring 根据 配置 文件 来 进行 创建 及 组 装 
对 象 间 依 赖 关 系 ， 只 需要 改 配置 文件 即 可 ， 无 须 重新 编译 。 所 以 ，Spring 能 帮 开 发 人 员 
根据 配置 文件 创建 及 组 装 对 象 之 间 的 依赖 关系 。 

当 开发 人 员 要 进行 一 些 日 志 记录 、 权 限 控制 、 性 能 统计 等 时 ， 在 传统 应 用 程序 当中 
可 能 在 对 象 或 方法 中 进行 ， 而 且 比如 权限 控制 、 性 能 统计 大 部 分 是 重复 的 ， 这 样 代码 中 
就 存在 大 量 重复 代码 ， 即 使 有 人 说 可 以 把 通用 部 分 提取 出 来 ， 但 调用 还 是 存在 重复 ， 像 
性 能 统计 可 能 只 是 在 必要 时 才 进 行 ， 在 诊断 完毕 后 要 删除 这 些 代码 ; 还 有 日 志 记 录 ， 比 
如 记录 一 些 方法 访问 日 志 、 数 据 访问 日 志 等 ， 这 些 都 会 渗透 到 各 个 访问 方法 中 ; 还 有 权 
限 控制 ， 必 须 在 方法 执行 开始 进行 审核 ， 想 想 这 些 是 多 么 可 怕 而 且 是 多 么 无 聊 的 工作 。 
如 果 采 用 Spring, 这 些 日 志 记 录 、 权 限 控 制 \ 性 能 统计 从 业务 逻辑 中 分 高 出 来 , 通过 Spring 
支持 的 面向 切面 编程 ， 在 需要 这 些 功能 的 地 方 动态 添加 这 些 功 能 ， 无 须 渗透 到 各 个 需要 
的 方法 或 对 象 中 ， 有 人 可 能 说 了 ， 可 以 使 用 “代理 设计 模式 ”或 “包装 器 设计 模式 ” 可 
以 使 用 这 些 ， 但 还 是 需要 通过 编程 方式 来 创建 代理 对 象 ， 还 是 要 耦合 这 些 代 理 对 象 ， 而 


采用 Spring 面向 切面 编程 能 提供 一 种 更 好 的 方式 来 完成 上 述 功能 ， 一 般 通过 配置 方式 ， 
而 且 不 需要 在 现 有 代码 中 添加 任何 额外 代码 ， 现 有 代码 专注 业务 逻辑 。 所 以 ，Spring M 
向 切面 编程 能 帮助 开发 人 员 无 耦合 地 实现 日 志 记录 、 人 性 能 统计 、 安 全 控制 等 。 

传统 应 用 程序 中 ， 开 发 人 员 如 何 来 完成 数据 库 事务 管理 ? 需要 一 系列 “获取 连接 ， 
执行 SQL, 提交 或 回 滚 事务 ,关闭 连接 ”而 且 还 要 保证 在 最 后 关闭 连接 ;如 果 采 用 Spring, 
只 需 获 取 连 接 、 执 行 SQL 即 可 ， 其 他 的 都 交 给 Spring 管理 。 因 此 ，Spring 能 非常 方便 地 
帮助 开发 人 员 管理 数据 库 事务 。 

Spring 还 能 与 第 三 方 数据 库 访问 框架 (如 Hibernate, JPA) 无 颖 集成 ， 而 且 自己 也 
提供 了 一 套 JDBC 访问 模板 ， 方 便 数据 库 访问 。 

Spring 还 能 与 第 三 方 Web (如 Struts, JSF) 框架 无 缝 集成， 而且 Spring 本 身 也 提供 
了 一 套 Spring MVC 框架 ， 来 方便 Web 层 搭建 。 

Spring 能 方便 地 与 Java ЕЕ (如 Java Mail, 任务 调度 等 ) 整合 ,与 更 多 技术 整合 СЕ 
如 缓存 框架 )。 

Spring 能 帮 开 发 人 员 做 这 么 多 事情 ， 提 供 这 么 多 功能 和 与 那么 多 主流 技术 整合 ， 而 
且 是 完成 了 开发 中 比较 头疼 和 困难 的 事情 ， 那 可 能 有 人 会 问 ， 难道 只 有 Spring 这 一 个 框 
架 ， 没 有 其 他 选择 ? 当然 有 ， 比 如 EJB 需要 依赖 应 用 服务 器 、 开 发 效率 低 、 在 开发 中 小 
型 项 目 时 是 宣 鸡 拿 牛刀 ， 虽 然 发 展 到 现在 ，EJB 已 经 比较 好 用 了 ， 但 还 是 比较 笨重 ， 而 
且 还 需要 依赖 应 用 服务 器 等 。 

Spring 能 帮助 我 们 简化 应 用 程序 开发 ， 帮 助 我 们 创建 和 组 装 对 象 ， 为 我 们 管理 事务 。 
简单 的 МУС 框架 , 可 以 把 Spring 看 作 是 一 个 超级 黏合 平台 , 能 把 很 多 技术 整合 在 一 起 ， 
形成 一 个 整体 ， 使 系统 结构 更 优良 、 性 能 更 出 众 ， 从 而 加 速 程序 开发 。 

Spring 框架 是 一 个 分 层 架 构 ， 由 7 个 定义 良好 的 模块 组 成 。Spring 模块 构建 在 核心 
容器 之 上 ， 核 心 容器 定义 了 创建 、 配 置 和 管理 Bean 的 方式 ， 如 图 5.21 所 示 。 
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СҮ B 5.21 Spring 框架 的 7 个 模块 


组 成 Spring 框架 的 每 个 模块 〈 或 组 件 ) 都 可 以 单独 存在 ， 或 者 与 其 他 一 个 或 多 个 


模块 联合 实现 。 每 个 模块 的 功能 如 下 。 
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1. 核心 容器 


核心 容器 提供 Spring 框架 的 基本 功能 。Spring 核心 容器 的 主要 组 件 是 BeanFactory， 
它 是 工厂 模式 的 实现 。BeanFactory 使 用 控制 反 转 (IoC) 模式 将 应 用 程序 的 配置 和 依赖 
性 规范 与 实际 的 应 用 程序 代码 分 开 。 


2. Spring 上 下 文 


Spring 上 下 文 是 一 个 配置 文件 ， 向 Spring 框架 提供 上 下 文 信息 。Spring 上 下 文 包括 
企业 服务 ， 例 如 JNDI、EJ、 电 子 邮 件 、 国 际 化 、 校 验 和 调度 功能 。 


3. Spring AOP 


通过 配置 管理 特性 ，Spring AOP (Aspect Oriented Programming， 面 向 切面 编程 ) 模 
块 直接 将 面向 切面 的 编程 功能 集成 到 了 Spring 框架 中 ,所 以 , 可 以 很 容易 地 使 Spring HE 
架 管理 的 任何 对 象 支持 AOP. Spring AOP 模块 为 基于 Spring 的 应 用 程序 中 的 对 象 提供 
了 事务 管理 服务 。 通 过 使 用 Spring AOP, 不 用 依赖 EJB 组 件 ， 就 可 以 将 声明 性 事务 管理 
集成 到 应 用 程序 中 。 


4. Spring DAO 


JDBC DAO 抽象 层 提供 了 有 意义 的 异常 层次 结构 ， 可 用 该 结构 来 管理 异常 处 理 和 不 
同 数据 库 供 应 商 抛 出 的 错误 消息 。 异 常 层 次 结构 简化 了 错误 处 理 ， 并 且 极 大 地 降低 了 需 
要 编写 的 异常 代码 数量 (例如 打开 和 关闭 连接 )。Spring DAO 的 面向 JDBC 的 异常 类 遵 
从 通用 的 DAO 异常 层次 结构 。 


5. Spring ORM 


Spring 框架 插入 了 若干 个 ORM 框架 ， 从 而 提供 了 ORM 的 对 象 关 系 工具 ， 其 中 包 
括 JDO. Hibernate 和 MyBatis 等 。 所 有 这 些 都 遵从 Spring 的 通用 事务 和 DAO 异常 层次 
结构 。 


6. Spring Web 模块 


Web 上 下 文 模块 建立 在 应 用 程序 上 下 文 模块 之 上 ， 为 基于 Web 的 应 用 程序 提供 了 
上 下 文 。 所 以 ，Spring 框架 支持 与 Apache Struts 的 集成 。Web 模块 还 简化 了 处 理 多 部 分 
请 求 以 及 将 请 求 参 数 绑 定 到 域 对 象 的 工作 。 


7. Spring MVC 框架 


Spring МУС 框架 是 一 个 全 功能 的 构建 Web 应 用 程序 的 МУС 实现。 通过 策略 接口 ， 
МУС 框架 变 成 为 高 度 可 配置 的 . MVC 容纳 了 大 量 视 图 ( 即 表 现 层 ) 技术 , 其 中 包括 JSP、 
Velocity, Tiles, iText 和 РОГ, 

Spring 框架 的 功能 可 以 用 在 任何 J2EE 服务 器 中 ， 大 多 数 功能 也 适用 于 不 受 管理 的 
环境 。Spring 的 核心 要 点 是 : 支持 与 特定 NEE 服务 无 关 的 可 重用 业务 和 数据 访问 对 象 。 


毫 无 疑问 ， 这 样 的 对 象 可 以 在 不 同 ЈЕВ 环境 (Web 或 EJB)、 独 立 应 用 程序 、 测 试 环境 
之 间 重 用 。 

控制 反 转 模 式 (也 称 作 依赖 注入 ) 的 基本 概念 是 : 在 应 用 程序 中 并 不 直接 创建 对 象 ， 
在 程序 外 部 (例如 通过 框架 的 配置 文件 ) 描述 创建 它们 的 方式 。 在 代码 中 不 直接 与 对 象 
和 服务 连接 ， 但 在 配置 文件 中 描述 哪 一 个 组 件 需要 哪 一 项 服务 。 容 器 (在 Spring 框架 中 
是 IoC 容器 ) 负责 将 这 些 联系 在 一 起 。 

在 典型 的 IoC 场景 中 , 容器 创建 了 所 有 对 象 , 并 设置 必要 的 属性 将 它们 连接 在 一 起 ， 
决定 什么 时 间 调 用 方法 。 表 5.1 列 出 了 IoC 的 一 个 实现 模式 。Spring 框架 的 IoC 容器 采 


用 类 型 2 和 类 型 3 实现 。 
22 表 5.1 _, 各 种 典型 的 loC 场景 及 实现 方式 


服务 需要 实现 专门 的 接口 ， 通 过 接口 ， 由 对 象 提供 这 些 服务 ， 可 以 
从 对 象 查 询 依赖 性 (例如 ， 需 要 的 附加 服务 》 

通过 JavaBean 的 属性 (例如 setter 方法 ) 分 配 依赖 性 

依赖 性 以 构造 函数 的 形式 提供 ， 不 以 JavaBean 属性 的 形式 公开 


面向 切面 的 编程 AOP) 是 一 种 编程 技术 ， 它 允许 程序 员 对 横 切 关注 点 或 横 切 典型 
的 职责 分 界线 的 行为 (例如 日 志和 事务 管理 ) 进行 模块 化 。AOP 的 核心 构造 是 切面 ， 它 
将 那些 影响 多 个 类 的 行为 封装 到 可 重用 的 模块 中 。 

AOP 和 IoC 是 补充 性 的 技术 , 它们 都 运用 模块 化 方式 解决 企业 应 用 程序 开发 中 的 复 
杂 问 题 。 在 典型 的 面向 对 象 开 发 方式 中 ,可 能 要 将 日 志 记录 语句 放 在 所 有 方法 和 Java 类 
中 才能 实现 日 志 功能 。 在 AOP 方式 中 , 可 以 反 过 来 将 日 志 服务 模块 化 ,并 以 声明 的 方式 
将 它们 应 用 到 需要 日 志 的 组 件 上 。 当 然 ， 优 势 是 Java 类 不 需要 知道 日 志 服务 的 存在 ， 也 
不 需要 考虑 相关 的 代码 。 所 以 ， 用 Spring AOP 编写 的 应 用 程序 代码 是 松散 耦合 的 。 

AOP 的 功能 完全 集成 到 了 Spring 事务 管理 、 日 志和 其 他 各 种 特性 的 上 下 文中 。 

Spring 设计 的 核心 是 org.springframework beans 包 , 它 的 设计 目标 是 与 JavaBean 组 
件 一 起 使 用 。 下 一 个 最 高 级 抽象 是 BeanFactory 接口 ， 它 是 工厂 设计 模式 的 实现 ， 人 允许 
通过 名 称 创建 和 检索 对 象 。BeanFactory 也 可 以 管理 对 象 之 间 的 关系 。 

BeanFactory 支持 以 下 两 个 对 象 模型 。 

О ŽA: 该 模型 提供 了 具有 特定 名 称 的 对 象 的 共享 实例 ， 可 以 在 查询 时 对 其 进行 

检索 。 Singleton 是 默认 的 也 是 最 常用 的 对 象 模 型 。 对 于 无 状态 服务 对 象 很 理想 。 

O 原型 : 该 模型 确保 每 次 检索 都 会 创建 单独 的 对 象 。 在 每 个 用 户 都 需要 自己 的 对 

象 时 ， 原 型 模型 最 适合 。 

Bean 工厂 (BeanFactory) 的 概念 是 Spring 作为 ТоС 容器 的 基础 。IoC 将 处 理事 情 的 
责任 从 应 用 程序 代码 转移 到 框架 。 正 如 将 在 下 一 个 示例 中 演示 的 那样 ，Spring 框架 使 用 
JavaBean 属性 和 配置 数据 来 指出 必须 设置 的 依赖 关系 。 

Spring 框架 运行 时 (Runtime) 架构 如 图 5.22 所 示 。 
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图 5.22 _ Spring 框架 运行 时 (Runtime) 架构 


本 示例 程序 是 在 5.3 节 第 一 个 Hibernate 程序 的 基础 上 集成 Spring 框架 , 使 用 户 
添加 操作 不 再 指定 使 用 UserDAO 接口 的 具体 子 类 ， 而 是 由 Spring ТоС 容器 指定 在 
应 用 程序 运行 时 使 用 的 UserDAO 接口 的 具体 子 类 。 

本 项 目 在 Eclipse 中 的 情况 如 图 5.23 所 示 。 


< © 20171225 HibemateAppSpring 
“яс 
+ 8 cnedubuuapp 
回 UserRegisterApplicationjave 
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> @ Hibemateutil java 
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Ë nibernatectgxml 
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mysglDriverlib 
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Ж spring-beans-502RELEASEjar 


È spring-context-5.02RELEASEjar 
È spring-core-5.0.2RELEASEjar 
局 soring-expression-5.02 RELEASEJar 


£ 8523 „Hibernate 与 Spring loC 整合 的 项 目 情 况 
本 项 目 与 5.3 节 第 一 个 Hibernate 程序 相 比 ， 其 实 改动 不 大 ， 主 要 包括 以 下 几 点 。 
添加 DAO 的 配置 文件 daos.xml， 如 例 5.31 所 示 。 
[ 例 5.31] daos.xml 
<?xml version="1.0" encoding="UTF-8"?> 


[9] 5.32] UserRegisterApplication java 
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Spring 使 用 BeanFactory 来 实例 化 、 配 置 和 管理 对 象 ， 但 是 它 只 是 一 个 接口 ， 有 一 
个 getBean() 方 法 。 一 般 都 不 直接 用 BeanFactory， 而 是 用 它 的 实现 类 ApplicationContext, 
这 个 类 会 自动 解析 应 用 程序 中 的 Bean 配置 文件 ， 然 后 根据 配置 的 Bean 来 new 对 象 , 将 
new 好 的 对 象 放 进 一 个 Мар 中 ， 键 就 是 配置 文件 中 Bean 的 id СИ 5.31 中 的 id 值 为 
userDAO)， 值 就 是 new 的 对 象 。 
Application Context 是 Spring 中 较 高 级 的 容器 。 和 BeanFactory 类 似 ， 它 可 以 加 载 配 
置 文件 中 定义 的 Bean， 将 所 有 的 Bean 集中 在 一 起 ， 当 有 请 求 的 时 候 分 配 Bean。 另 外 ， 
它 增 加 了 企业 所 需要 的 功能 ， 比 如 ， 解 析 配 置 文件 中 的 文本 信息 ， 并 将 事件 传递 给 所 指 
定 的 监听 器 。 这 个 容器 在 org.springframework.context.ApplicationContext 接口 中 定义 。 
ApplicationContext 包含 BeanFactory 所 有 的 功能 , 一 般 情况 下 , 相对 于 BeanFactory， 
ApplicationContext 会 被 推荐 使 用 。BeanFactory 仍然 可 以 在 轻 量 级 应 用 中 使 用 ,比如 移动 
设备 或 者 基于 applet 的 应 用 程序 。 
最 常 被 使 用 的 ApplicationContext 接口 实现 主要 包括 以 下 几 个 。 
О FileSystemXmlApplicationContext: 该 容器 从 XML 文 件 中 加 载 已 被 定义 的 Bean, 
在 这 里 ， 需 要 提供 给 构造 器 XML 文件 的 完整 路 径 。 
О ”ClassPathXmlApplicationContext: 该 容器 从 XML 文件 中 加 载 已 被 定义 的 Bean, 
在 这 里 ， 不 需要 提供 XML 文件 的 完整 路 径 ， 只 需 正确 配置 CLASSPATH 环境 
变量 即 可 。 因 为 容器 会 从 CLASSPATH 中 搜索 Bean 配置 文件 。 
О WebXmlApplicationContext: 该 容器 会 在 一 个 Web 应 用 程序 的 范围 内 加 载 在 
XML 文件 中 已 被 定义 的 Bean。 
在 例 5.32 中 , 采用 的 是 FileSystemXmlApplicationContext 类 ， 其 中 ，XML 文件 的 完 
整 路 径 为 src/resources/daos.xml。 
例 5.32 的 运行 结果 如 图 5.24 所 示 。 
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-Drivernanagerconnectionprovidermpl buildcreator 


.DriverNanagerConnectionproviderInpl buildcreator 


U9q, u_pay_one, u_pay_two, u_pay_three, u_pay_ four) values (?, 
5, 2017 9:33:05 EF Org. SPringframework. context. support. ABstrac App лес 1OnCOntext 801516. 
ВЕ: Closing org.springframevork.context.supoort.FileSystemXmlApplicationcontext@4534b60d: startup date [Hon Dec 25 @9:33:03 CST 2017]; root 


5.24 集成 了 Spring loC 的 Hibernate 应 用 程序 的 运行 结果 


习题 5 


1. 简要 说 明基 于 Hibernate 进行 编程 的 基本 思路 。 

2. 举例 说 明 在 Hibernate 中 如 何 配置 访问 数据 库 的 配置 文件 。 

3. 举例 说 明 在 Hibernate 中 实体 如 何 配置 映射 文件 。 

4. 举例 说 明 如 何在 Hibernate 中 配置 一 对 一 、 一 对 多 、 多 对 多 的 实体 间 联 系 的 ОКМ. 
5. 简要 说 明 Spring 框架 IoC 的 基本 含义 。 
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XML 技术 


6.1 XML 概述 


XML (Extensible Markup Language, 可 扩展 标记 语言 ) 是 标准 通用 标记 语言 (Standard 
Generalized Markup Language, SGML) 的 子 集 ， 是 一 种 用 于 标记 电子 文件 使 其 具有 结构 
性 的 标记 语言 。 

在 计算 机 中 ， 标 记 指 计算 机 所 能 理解 的 信息 符号 ， 通 过 此 种 标记 ， 计 算 机 之 间 可 以 
处 理 各 种 信息 ， 比 如 文章 等 。 它 可 以 用 来 标记 数据 ， 定 义 数据 类 型 ， 是 一 种 允许 用 户 对 
自己 的 标记 语言 进行 定义 的 源 语言 。 它 非常 适合 万 维 网 传输 ， 提 供 统一 的 方法 来 描述 和 
交换 独立 于 应 用 程序 或 供应 商 的 结构 化 数据 ， 是 Internet 环境 中 跨 平 台 的 、 依 赖 于 内 容 
的 技术 ， 也 是 当今 处 理 分 布 式 结构 信息 的 有 效 工具 。 早 在 1998 年 ，W3C 就 发 布 了 XML 
1.0 规范 ， 使 用 它 来 简化 Internet 的 文档 信息 传输 。 

1998 年 2 H, W3C 正式 批准 了 可 扩展 标记 语言 的 标准 定义 ，XML 可 以 对 文档 和 数 
据 进行 结构 化 处 理 ， 从 而 能 够 在 部 门 、 客 户 和 供应 商 之 间 进 行 交换 ， 实 现 动态 内 容 生成 ， 
企业 集成 和 应 用 开发 。 可 扩展 标记 语言 可 以 更 准确 地 搜索 ， 更 方便 地 传送 软件 组 件 ， 更 
好 地 描述 一 些 事物 。 它 被 设计 用 来 传输 和 存储 数据 ; HTML 被 设计 用 来 显示 数据 。 它 们 
都 是 标准 通用 标记 语言 (SGML) 的 子 集 。 

XML 是 一 种 很 像 HTML 的 标记 语言 。 它 的 设计 宗旨 是 传输 数据 ， 而 不 是 显示 数据 。 
XML 的 标签 没有 被 预定 义 ， 需 要 自行 定义 标签 。XML 被 设计 为 具有 自我 描述 性 ， 是 
W3C 的 推荐 标准 。 

XML 并 不 是 HTML 的 替代 ， 它 是 对 HTML 的 补充 。XML 和 HTML 为 不 同 的 目的 
而 设计 : XML 被 设计 用 来 传输 和 存储 数据 ， 其 焦点 是 数据 的 内 容 。HTML 被 设计 用 来 
显示 数据 ， 其 焦点 是 数据 的 外 观 。HTML 旨 在 显示 信息 ，XML 由 在 传输 信息 。 对 XML 
最 好 的 描述 是 : XML 是 独立 于 软件 和 硬件 的 信息 传输 工具 。XML 于 1998 年 2 月 10 H 
成 为 W3C 的 推荐 标准 。 

XML 是 各 种 应 用 程序 之 间 进 行 数据 传输 的 最 常用 的 工具 。 与 MySQL、Oracle 和 
Microsoft SQL Server 等 数据 库 不 同 ， 数 据 库 提供 了 更 强 有 力 的 数据 存储 和 分 析 能 力 ， 例 
如 ， 数 据 索 引 、 排 序 、 查 找 、 相 关 一 致 性 等 ，XML 仅仅 是 存储 数据 。 事 实 上 ，XML 与 
其 他 数据 表现 形式 最 大 的 不 同 是 : 它 极其 简单 ， 这 是 一 个 看 上 去 有 点 儿 琐 细 的 优点 ， 但 
正 是 这 一 点 使 它 与 众 不 同 。 

XML 和 超 文本 标记 语言 语法 的 区 别 是 : 超 文 本 标记 语言 的 标记 不 是 所 有 的 都 需要 成 
对 出 现 ，XML 则 要 求 所 有 的 标记 必须 成 对 出 现 。HTML 标记 不 区 分 大 小 写 ，XML 则 大 
小 敏感 ， 即 区 分 大 小 写 。 标 准 通 用 标记 语言 、 超 文本 标记 语言 是 它 的 先驱 。 

标准 通用 标记 语言 是 国际 上 定义 电子 文件 结构 和 内 容 描述 的 标准 ， 是 一 种 非常 复杂 
的 文档 结构 ， 主 要 用 于 大 量 高 度 结构 化 数据 的 保护 和 其 他 各 种 工业 领域 ， 利 于 分 类 和 索 
引 。 标 准 通用 标记 语言 定义 的 功能 很 强大 , 缺点 是 不 适用 于 Web 数据 描述 ， 而 且 标准 通 
用 标记 语言 的 软件 价格 一 般 较 昂贵 。 

HTML 的 优点 是 比较 适合 Web 页 面 的 开发 。 缺点 是 标记 相对 少 , 只 有 固定 的 标记 集 
如 <p>、<strong> 等 ,缺少 标准 通用 标记 语言 的 柔性 和 适应 性 。 不 能 支持 特定 领域 的 标记 
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语言 ， 如 对 数学 、 化 学 、 音 乐 等 领域 的 表示 支持 较 少 。 因 此 ， 开 发 者 很 难 在 网 页 上 表示 
数学 公式 、 化 学 分 子 式 和 乐谱 。 

XML 结合 了 SGML 和 HTML 的 优点 并 消除 其 缺点 .XML 仍然 被 认为 是 一 种 SGML， 
但 比 SGML 要 简单 ， 并 能 实现 SGML 的 大 部 分 功能 。 

XML 的 简单 使 其 易于 在 任何 应 用 程序 中 读 写 数据 , 这 使 XML 很 快 成 为 数据 交换 的 
唯一 公共 语言 (后 续 的 JSON 技术 在 数据 交换 中 也 得 到 了 广泛 的 应 用 ), 虽然 不 同 的 应 用 
软件 也 支持 其 他 的 数据 交换 格式 , 但 不 久之 后 它们 都 将 支持 XML, 那 就 意味 着 程序 可 以 
更 容易 地 与 Windows. Mac OS, Linux 以 及 其 他 平台 下 产生 的 信息 结合 ， 然 后 可 以 很 容 
易 加 载 XML 数据 到 程序 中 并 分 析 它 ， 并 以 XML 格式 输出 结果 。 

XML 是 一 种 元 标记 语言 , 即 定义 了 用 于 定义 其 他 特定 领域 有 关 语 义 的 、 结构 化 的 标 
记 语 言 , 这 些 标记 语言 将 文档 分 成 许多 部 件 并 对 这 些 部 件 加 以 标识 。 XML 文档 定义 方式 
H: 文档 类 型 定义 (DTD) 和 XML Schema. 

DTD 定义 了 文档 的 整体 结构 以 及 文档 的 语法 , 应 用 广泛 并 有 丰富 的 工具 支持 。 XML 
Schema 用 于 定义 管理 信息 等 更 强大 、 更 丰富 的 特征 。XML 能 够 更 精确 地 声明 内 容 ， 方 
便 跨越 多 种 平台 的 更 有 意义 的 搜索 结果 ， 提 供 了 一 种 描述 结构 数据 的 格式 ， 简 化 了 网 络 
中 数据 的 交换 和 表示 ， 使 得 代码 、 数 据 和 表示 分 离 ， 并 作为 数据 交换 的 标准 格式 ， 因 此 
它 常 被 称 为 智能 数据 文档 。 

XML 技术 已 经 广泛 应 用 于 各 种 应 用 系统 的 开发 ,大 多 数 的 商用 平台 都 支持 XML 标 
准 。 一 些 主要 的 网 络 设备 制造 商 ， 如 CISCO, JUNIPER 等 ， 生 产 的 网 络 设备 也 已 提供 了 
对 XML 的 支持 ， 以 利于 今后 基于 XML 的 网 络 管理 。XML 的 特点 主要 如 下 。 

1. 兼容 现 有 协议 


XML 文档 格式 的 管理 信息 可 以 很 容易 地 通过 HTTP 传输 , 由 于 HTTP 是 建立 在 TCP 
之 上 的 ， 故 管理 数据 能 够 可 靠 传 输 。XML 还 支持 访问 XML 文档 的 标准 API, W DOM, 
SAX、XSLT、XPath 等 。 

2. 统一 的 管理 数据 存 取 格 式 

XML 能 够 以 灵活 有 效 的 方式 定义 管理 信息 的 结构 。 以 XML 格式 存储 的 数据 不 仅 有 
良好 的 内 在 结构 ， 而 且 由 于 它 是 W3C 提出 的 国际 标准 ， 因 而 受到 广大 软件 提供 商 的 支 
持 ， 易 于 进行 数据 交流 和 开发 。 现 有 网 络 管理 标准 如 TMN, SNMP 等 的 管理 信息 库 规 范 
决定 了 网 管 数据 符合 层次 结构 和 面向 对 象 原则 ， 这 使 得 以 XML 格式 存储 网 管 数据 也 非 
常 自 然 ， 易 于 实现 。 

3. 不 同 应 用 系统 间 数 据 的 共享 和 交互 

只 要 定义 一 套 描述 各 项 管理 数据 和 管理 功能 的 XML， 用 Schema 对 这 套 语言 进行 规 
定 ， 并 且 共 享 这 些 数据 的 系统 的 XML 文档 遵从 这 些 Schema， 那 么 管理 数据 和 管理 功能 
就 可 以 在 多 个 应 用 系统 之 间 共 享 和 交互 。 

4. 底层 传输 的 数据 更 具 可 读 性 

网 络 中 传输 的 底层 数据 因 协 议 不 同 而 编码 规则 不 同 ， 虽 然 最 终 传输 时 都 是 二 进 制 位 
流 ， 但 是 不 同 的 应 用 协议 需要 提供 不 同 的 转换 机 制 。 这 种 情况 导致 管理 站 对 采用 不 同 协 


议 发 送 管理 信息 的 被 管 对 象 之 间 进 行 管理 时 很 难 实现 兼容 。 如 果 协 议 在 数据 表示 时 都 采 
用 XML 格式 进行 描述 ， 这 样 网 络 之 间 传 递 的 都 是 简单 的 字符 流 ， 可 以 通过 相同 的 XML 
解析 器 进行 解析 ， 然 后 根据 不 同 的 XML 标记 ， 对 数据 的 不 同 部 分 进行 区 分 处 理 ， 使 底 
层 数 据 更 具 可 读 性 。 

5. 它 和 JSON 都 是 一 种 数据 交换 格式 


62 XML ЧЕ 


XML 文件 是 由 标签 及 其 所 标记 的 内 容 构成 的 文本 文件 ， 与 HTML 文件 不 同 的 是 ， 
这 些 标签 可 自由 定义 ， 其 目的 是 使 XML 文件 能 够 很 好 地 体现 数据 的 结构 和 含义 。 但 是 ， 
XML 文件 必须 符合 一 定 的 语法 规则 , 只 有 符合 这 些 语 法 规则 , XML 文件 才 可 以 被 XML 
解析 器 解析 ， 以 便利 用 其 中 的 数据 。 

XML 文件 分 为 格式 良好 的 (well-formed) XML 文件 和 有 效 的 (validated) XML Ж 
fF. 符合 W3C 制定 的 基本 语法 规则 的 XML 文件 称 为 格式 良好 的 XML 文件 ， 格 式 良 好 
的 XML 文件 如 果 再 符合 额外 的 一 些 约束 就 称 为 有 效 的 XML 文件 ,本 节 介 绍 格式 良好 的 
XML 文件 ，6.3 节 (DTD, Document Type Definition， 文 档 类 型 定义 ) 和 6.4 节 (XML 
Schema) 介绍 有 效 的 XML 文件 。 

一 个 格式 良好 的 XML 文件 必须 满足 W3C 所 指定 的 标准 ， 例 如 ， 文 件 以 “XML ЈЕ 
明 ” 开 始 、 文 件 有 且 仅 有 一 个 根 标签 ， 其 他 标签 都 必须 包含 在 根 标签 中 ， 文 件 的 标签 必 
须 能 够 形成 树 状 结构 、 非 空 标签 必须 由 “开始 标签 ”和 “结束 标签 ”组 成 等 。 一 般 认为 ， 
格式 不 良好 的 XML 文件 是 没有 实用 价值 的 文件 , 甚至 不 能 称 为 一 个 XML 文件 。 本 节 讲 
述 的 内 容 都 是 W3C 所 指定 的 规范 标准 。 

格式 良好 的 XML 文档 在 使 用 时 可 以 不 使 用 DTD sü XML Schema 来 描述 结构 , 也 被 
称 作 独立 的 XML 文档 。 这 些 数据 不 能 够 依靠 外 部 的 声明 ， 属 性 值 只 能 是 没有 经 过 特殊 
处 理 的 值 或 默认 值 。 

一 个 格式 良好 的 XML 文档 包含 一 个 或 多 个 元 素 〈 用 开始 标签 和 结束 标签 分 隔 开 )， 
元 素 相互 之 间 必 须 正 确 地 嵌 套 。 其 中 有 一 个 元 素 ， 即 文档 元 素 ， 也 称 为 根 元 素 ， 包 含 文 
档 中 的 其 他 所 有 元 素 。 所 有 的 元 素 构成 一 个 简单 的 层次 树 ， 所 以 元 素 和 元 素 之 间 唯 一 的 
直接 关系 就 是 父子 关系 。 兄 弟 关 系 经 常 能 够 通过 XML 应 用 程序 内 部 的 数据 结构 推断 出 
来 , 但 这 既 不 直接 ,也 不 可 靠 (因为 元 素 和 它 的 子 元 素 之 间 可 能 会 插入 新 的 元 素 )。 XML 
文档 的 内 容 可 以 包括 标签 和 字符 数据 。 

XML 文档 如 果 满 足下 列 条 件 就 是 格式 良好 的 文档 。 
结束 标签 匹配 相应 的 开始 标签 ( 空 标签 除外 ); 
在 元 素 嵌 套 定 义 时 没有 重 又 (或 交叉 ); 
对 一 个 元 素来 说 ， 没 有 多 个 相同 名 称 的 属性 ; 
所 有 标签 构成 一 个 层次 树 ; 
只 有 一 个 根 标签; 
没有 对 外 部 实体 的 引用 (除非 提供 了 DTD ). 
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任何 XML 解析 器 如 果 发 现在 XML 数据 中 存在 不 是 格式 良好 的 结构 , 就 必须 向 应 用 
程序 报告 一 个 “致命 错误 ”(fatal error)。 致 命 错误 不 一 定 导致 解析 器 终止 操作 ; 它 可 以 
继续 处 理 ， 试 图 找 出 其 他 错误 ， 但 不 再 会 以 正常 的 方式 向 应 用 程序 传递 数据 和 XML 结 
构 。 对 于 HTML/SGML 来 说 ， 它 们 的 工具 都 要 比 XML 宽容 许多 。HTML 浏览 器 通常 会 
显示 出 绝 大 多 数 支离破碎 的 Web 页 面 ， 这 为 HTML 的 快速 流行 做 出 了 巨大 贡献 。 然 而 ， 
真正 的 显示 结果 会 因 浏览 器 而 异 。 同 样 ，SGML 工具 即使 遇 到 错误 ， 通 常 也 会 尽力 继续 
处 理 文档 而 不 是 报告 错误 信息 。 

格式 良好 的 文档 使 得 可 以 使 用 XML 数据 而 不 必 承 担 构建 和 引用 外 部 描述 的 重任 。 
术语 “格式 良好 的 ”与 数学 逻辑 有 着 相似 之 处 ， 一 个 命题 如 果 满 足 语法 规则 就 是 格式 良 
好 的 ， 而 与 命题 是 真是 假 无 关 。 

XML 有 很 多 用 途 ， 它 最 基本 的 用 途 是 表示 结构 化 数据 。 那 么 ， 如 何 用 XML 来 表示 
各 种 各 样 的 数据 呢 ? 下 面 来 分 析 一 个 简单 的 XML 文档 ， 参 见 例 6.1。 


[ 例 6.1] Books.xml 


例 6.1 中 的 XML 文档 虽然 简单 ， 却 是 一 个 结构 完整 的 XML 文档 。 一 般 地 ， 一 个 


XML 文档 主要 由 以 下 三 个 部 分 组 成 。 
(1) XML 序言 (prologue), 从 XML 声明 到 文档 元 素 开 始 前 的 部 分 。 对 例 6.1 来 说 ， 
包括 : 


<?xml version = "1.0" encoding = "UTF-8" standalone = "yes" ?> 
<?xml-stylesheet type = "text/css" href = "books.css" 2> 


(2) 文档 主体 (body)， 就 是 文档 根 元 素 所 包含 的 内 容 。 文 档 的 主体 由 一 个 或 多 个 
元 素 组 成 ,是 文档 的 核心 及 内 容 所 在 的 地 方 , XML 文档 中 所 有 可 以 被 应 用 程序 使 用 的 信 
息 都 存放 于 此 。 所 有 的 XML 文档 都 必须 至 少 包含 一 个 根 元 素 。 

G) 尾声 (epilogue)， 就 是 文档 根 元 素 后 面 的 部 分 ， 尾 声 的 内 容 可 以 包括 注释 、 处 
理 指 令 和 /或 紧 跟 在 元 素 后 的 空白 。 对 例 6.1 来 说 ， 包 括 : 


<!-- 存储 了 一 些 书籍 的 信息 ——> 


因此 ， 一 个 XML 文档 最 基本 的 语法 要 素 包括 : XML 声明 (XMI， 文 档 声明 )、 处 
理 指令 、 注 释 和 XML 元 素 。 可 以 看 出 ， 与 HTML 一 样 ，XML 也 是 一 个 基于 文本 的 标 
记 语 言 , 用 标签 (一 对 尖 括 号 ) 来 表示 数据 。 不 同 的 是 ,XML 的 标签 说 明了 数据 的 含义 ， 
而 不 是 如 何 显示 它 。XML 文档 的 主体 内 容 由 一 个 根 元 素 构成 ， 在 例 6.1 中 这 个 根 元 素 的 
名 称 是 “books”， 它 由 开始 标签 “<books>” 和 结束 标签 “</books>” 组 成 ， 开 始 标签 与 
结束 标签 之 间 就 是 这 个 元 素 的 内 容 。 由 于 各 个 元 素 内 容 被 各 自 的 标签 所 包含 ， 在 XML 
中 各 种 数据 的 分 类 查找 和 处 理 变 得 非常 容易 。 
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XML 文档 是 以 序言 开头 的 , 用 于 表示 XML 数据 的 开始 。 它 描述 了 数据 的 字符 编码 ， 
并 为 XML 解析 器 和 应 用 程序 提供 一 些 其 他 的 配置 信息 。 

XML 序言 的 组 成 包括 : 一 个 XML 声明 , 其 后 可 能 紧 跟着 几 个 注释 、 处 理 指令 和 (或 ) 
空白 字符 ， 接 着 是 一 个 可 选 的 文档 类 型 声明 ， 其 后 也 可 能 再 跟着 几 个 注释 、 处 理 指令 和 

(或 ) 空白 字符 。 由 于 这 些 内 容 都 是 可 选 的 ， 就 意味 着 序言 可 以 被 省 略 ， 而 整个 XML 

文档 仍然 是 格式 良好 的 。 

所 有 的 XML 文档 都 应 该 以 一 个 XML 声明 (XML Declaration) 开始 。 文 档 声 明 在 
大 多 数 XML 文档 中 不 是 必需 的 ， 但 它 有 助 于 清晰 地 把 数据 标识 为 XML， 并 且 当 处 理 文 
档 时 允许 进行 一 些 优 化 。 如 果 XML 数据 使 用 的 编码 不 是 UTF-8 或 者 UTF-16, 那么 必须 
使 用 带 有 正确 编码 的 XML 声明 .如 果 XML 文档 包括 XML 声明 ,那么 字符 串 常量 “<?xml” 
必须 是 文档 最 前 面 的 6 个 字符 ，XML 声明 之 前 不 允许 存在 空白 (例如 ， 空 格 、Tab 制 表 
符 或 者 空 行 ) 或 者 嵌入 注释 。 

虽然 XML 声明 看 上 去 确实 与 处 理 指令 (Processing Instruction, PI) 类 似 ， 但 从 严 
格 意义 上 来 说 它 不 是 一 条 处 理 指 令 , 它 是 由 XML 1.0 推荐 标准 定义 的 唯一 的 声明 ,不 过 ， 
XML 声明 了 使 用 类 似 处 理 指令 的 分 隔 符 〈<?、?>) 和 类 似 元 素 的 属性 的 语法 ， 这 些 与 在 
元 素 标记 中 使 用 属性 的 语法 非常 相似 〈 单 引号 或 双 引 号 用 于 定 界 字符 串 值 )。 
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XML 1.0 规范 中 已 经 定义 了 以 下 三 个 参数 。 
О Version: 这 是 必需 的 。 它 的 值 当前 必须 为 1.0 ( 目前 还 没 其 他 版 本 被 定义 )。 该 
参数 用 来 保证 对 XML 未 来 版 本 的 支持 。 
О Encoding: 可 选 。 它 的 值 必 须 是 一 种 合法 的 字符 编码 ， 例 如 ，UTF-8、UTF-16 
或 者 ISO-8859-1( 即 Latin-1 字符 编 码 ) 如果 没有 包含 这 个 参数 ,就 假设 是 UTF-8 
或 UTF-16 编码 。 在 例 6.1 的 XML 文档 中 由 于 存在 中 文 注释 ， 因 此 其 编码 集 使 
用 了 UTF-8. 
О Standalone: 可 选 。 值 必须 是 yes X по; 如 果 是 yes 就 意味 着 所 有 必需 的 实体 声 
明 都 包含 在 文档 中 ， 如 果 是 no 就 意味 着 需要 外 部 的 DTD 或 XML Schema, 
尽管 以 上 的 键 - 值 对 看 起 来 与 XML 属性 非常 类 似 , 但 是 相 比 之 下 有 很 多 关键 的 不 同 。 
与 XML 属性 〈 它 能 以 任何 顺序 排列 ) 不 一 样 ， 上 述 这 三 个 参数 必须 按 上 面 的 顺序 依次 
出 现 。 另 一 方面 ， 也 是 与 大 多 数 XML 属性 不 同 ，encoding 值 是 不 区 分 大 小 写 的 。 这 种 
不 一 致 主要 是 因为 XML 对 现 有 ISO 和 IANA 标准 关于 字符 编码 命名 的 依赖 。XML 早期 
的 草案 并 没有 要 求 名 称 大 小 写 敏 感 ,所 以 许多 早期 的 XML 实现 者 (包括 Microsoft 在 内 )， 
用 的 是 声明 的 大 写 版 本 “<?XML … ?>”。 但 是 ， 最 终 的 W3C 推荐 标准 提出 了 大 小 写 敏 
感 的 要 求 ， 并 将 “xml” 规 定 为 小 写 。 这 样 一 来 ， 某 些 所 谓 的 XML 文档 就 不 再 是 格式 良 
好 的 XML 1.0 文档 了 。 


处 理 指令 PD 是 XML 文档 中 用 来 给 处 理 它 的 应 用 程序 传递 信息 的 元 素 。XML 解 
析 器 会 把 它 原封 不 动 地 传 给 XML 应 用 程序 ， 由 应 用 程序 来 解释 这 个 指令 ， 并 按照 它 所 
提供 的 信息 进行 处 理 ， 或 者 再 把 它 原封 不 动 地 传 给 下 一 个 应 用 程序 。 

处 理 指令 的 一 般 格 式 是 : 


<? 处 理 指令 名 处 理 指令 信息 ?> 


其 中 ， 处 理 指令 名 是 必需 的 ， 而 且 必 须 是 有 效 的 XML 名 称 。 它 可 以 是 应 用 程序 的 
实际 名 字 ， 或 者 是 在 DID 中 指向 应 用 程序 的 记号 名 ， 也 可 以 是 能 被 应 用 程序 识别 的 其 
他 名 字 。 由 于 XML 声明 的 处 理 指令 名 是 “xml”， 不 管 是 由 大 写字 母 还 是 由 小 写字 母 组 
成 的 都 被 保留 ， 因 此 其 他 处 理 指令 名 不 能 再 使 用 “xml”。 处 理 指令 信息 部 分 是 被 传送 到 
应 用 程序 的 信息 ， 它 可 以 由 任何 连续 的 字符 组 成 ， 但 不 能 包含 字符 串 “?>”。 

一 种 常见 的 处 理 指令 是 样式 单 处 理 指 令 ， 用 来 告诉 XML 文档 的 处 理 程序 〈 例 如 ， 
浏览 器 )， 将 一 个 样式 单 和 XML 数据 关联 起 来 ， 而 且 可 以 在 指定 的 地 方 找到 样式 单 。 在 
例 6.1 中 包含 一 个 样式 单 指令 : 


<?xml-stylesheet Еуре = "text/css" href = "books.css" ?> 


当 使 用 浏览 器 (例如 Chrome 等 ) 打开 该 存储 了 书籍 信息 的 XML 文档 时 , 浏览 器 将 
根据 样式 单 处 理 指令 指定 的 位 置 处 (此 处 是 当前 目录 ) 寻找 样式 单 “books.css”， 并 根据 
样式 单 显示 XML 文档 中 的 书籍 信息 。 


处 理 指令 不 是 XML 文档 的 通用 结构 部 分 ， 是 为 特定 的 应 用 程序 提供 额外 信息 的 ， 
而 不 是 为 所 有 读 取 XML 文档 的 应 用 程序 提供 信息 的 。 处 理 指令 的 内 容 由 应 用 程序 和 文 
档 的 作者 根据 处 理 的 需要 来 确定 ， 可 以 插入 到 XML 文档 中 除了 元 素 的 开始 标签 和 结束 
标签 之 外 的 任何 地 方 一 一 在 文档 的 序言 中 、 在 文档 元 素 的 后 面 、 元 素 的 内 容 中 均 可 。 应 
用 程序 在 读 取 文档 时 ， 当 遇 到 能 够 识别 的 处 理 指令 时 ， 会 进行 相应 的 处 理 ， 当 遇 到 不 能 
识别 的 处 理 指令 时 ， 将 简单 地 跳 过 这 些 处 理 指令 。 

处 理 指令 具有 广泛 的 用 途 ， 应 用 程序 和 文档 的 作者 可 以 根据 处 理 的 需要 ， 设 计 各 种 
各 样 的 处 理 指令 。 


e 6:2.3 一 注释 - 


许多 编程 语言 中 都 可 以 使 用 注释 。 就 像 在 程序 中 引入 注释 一 样 ， 人 们 和 希望 在 XML 
文档 中 加 入 一 些 用 作 解 释 的 字符 数据 ， 并 且 希 望 XML 处 理 器 不 对 它们 进行 任何 处 理 。 
这 种 类 型 的 文本 称 为 注释 文本 ，XML 标准 规定 : 对 于 这 一 类 文本 ，XML 处 理 程序 可 以 
忽略 ， 也 可 以 读 取 注释 的 正文 传递 给 应 用 程序 作为 参考 。 但 无 论 采 用 哪 种 方式 ， 它 至 多 
只 提供 参考 ， 永 远 不 是 真正 的 XML 数据 。 注 释 用 于 对 语句 进行 某 些 提示 或 说 明 ， 带 有 
适当 注释 语句 的 XML 文档 不 仅 使 其 他 人 容易 读 懂 ， 易 于 交流 ， 更 重要 的 是 ， 可 以 使 用 
户 自己 将 来 对 此 文档 方便 地 进行 修改 。 

注释 的 语法 形式 如 下 。 


<!-- 注释 文本 --> 


TUAH, CM HTML 中 的 注释 语法 是 相同 的 ， 非 常 简单 ， 容 易 使 用 。 注 释 可 以 出 
现在 标签 之 外 和 XML 声明 之 后 的 任何 地 方 。 

在 XML 文档 中 使 用 注释 时 ， 要 注意 以 下 几 点 。 

СТ) 注释 不 能 出 现在 XML 声明 之 前 ， 因 为 XML 声明 必须 是 文档 的 第 一 行 。 

(2) 在 注释 文本 中 不 能 出 现 字 符 “-” 或 字符 串 “--”， 以 免 XML 处 理 器 把 它们 和 
注释 的 结束 标志 “-->” 相 混淆 。 除 此 之 外 ， 注 释 可 以 包含 任何 内 容 。 更 重要 的 是 ， 注 释 
内 的 任何 标签 都 会 被 忽略 。 如 果 想 去 除 XML 文档 的 一 部 分 ， 只 需要 把 这 部 分 注释 即 可 ; 
如 果 要 恢复 被 注释 掉 的 部 分 ， 则 只 需 去 掉 注释 标记 即 可 。 

G) 不 能 把 注释 文本 放 在 开始 标签 和 结束 标签 之 中 ， 否 则 ，XML 文档 就 违反 了 格 
式 良 好 的 XML 文档 关于 标签 的 规定 。 此 时 如 果 用 浏览 器 打开 ， 则 浏览 器 会 报错 。 

(4) 注释 不 能 嵌 套 ， 即 注释 文本 中 不 能 再 包含 男 一 个 注释 。 

大 多 数 浏 览 器 都 以 灰色 字体 来 显示 XML 文档 中 的 注释 。 


元 素 (fE XML 文档 中 体现 为 标签 ) 是 XML 标记 的 基本 组 成 部 分 ， 可 以 看 作 容器 。 
元 素 可 以 有 关联 的 属性 和 (或 ) 包含 其 他 的 元 素 、 字 符 数据 、 字 符 引 用 、 实 体 引 用 、 处 
HES PD, EAM GR) CDATA 部 分 。 不 用 担心 这 些 术语 都 是 什么 意思 ， 接 下 来 会 
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进行 解释 。 事 实 上 ， 大 多 数 XML 数据 〈 除 了 注释 、PI 和 空白 ) 都 必须 被 包含 在 元 素 中 。 
元 素 是 XML 内 容 的 基本 容器 ， 可 以 包含 字符 数据 、 其 他 元 素 以 及 (或 ) 其 他 标记 〈 注 
释 、PI、 实 体 引 用 等 )。 由 于 元 素 代 表 的 是 一 些 离散 的 对 象 ， 因 此 可 以 把 它们 看 作 XML 
中 的 名 词 。 

元 素 是 XML 文档 内 容 的 基本 单元 ， 元 素 使 用 标签 (Tag) 进行 分 隔 。 格 式 良 好 的 
XML 文档 的 主体 部 分 必须 包含 在 一 个 单一 的 元 素 中 , 这 个 单一 的 元 素 称 为 文档 元 素 或 根 
元 素 , 所 有 其 他 元 素 都 必须 被 包含 在 文档 元 素 中 。 例如 , 例 6.1 中 的 文档 根 元 素 为 books， 
其 他 元 素 如 book、title、press 等 都 包含 在 元 素 books 中 。 

元 素 使 用 开始 标签 和 结束 标签 进行 界定 。 如 果 元 素 没有 内 容 ， 则 称 为 空 元 素 ， 它 既 可 
以 使 用 开始 标签 /结束 标签 对 来 表示 ， 也 可 以 使 用 简便 形式 ， 空 元 素 标签 。 与 HTML 和 
SGML 的 松散 语法 不 一 样 ， 元 素 的 结束 标签 不 能 被 省 略 ， 除 非 是 空 元 素 标签 。 每 种 标签 均 
由 封闭 在 一 对 尖 括 号 O) 中 的 元 素 类 型 名 〈 这 必须 是 一 个 有 效 的 XML 命名 ) 组 成 。 

一 个 元 素 开始 的 定 界 符 被 称 为 开始 标签 。 开 始 标签 由 封闭 在 一 对 尖 括 号 里 的 元 素 类 
型 名 和 一 些 属 性 〈 属 性 将 在 后 续 部 分 讨论 ) 组 成 。 可 以 把 开始 标签 看 作 “ 打 开 ” 了 一 个 
容器 ， 该 容器 接着 将 由 结束 标签 关闭 。 结 束 标签 由 正 斜 杠 “/” 紧 随 元 素 的 名 称 组 成 ， 它 
也 是 封闭 在 一 对 尖 括 号 中 。 结 束 标签 的 名 称 必须 与 相应 开始 标签 中 的 元 素 名 称 匹 配 。 在 
元 素 的 开始 标签 和 结束 标签 之 间 的 任何 内 容 被 包含 在 该 元 素 中 。 在 开始 标签 中 的 “<” 
与 元 素 类 型 名 称 之 间 ， 不 允许 存在 空格 。 

XML 对 于 标签 的 语法 有 着 严格 的 规定 ， 具 体 如 下 。 

(1) 标签 必 不 可 少 。 格 式 良好 的 XML 文档 必须 且 只 能 有 一 个 顶层 元 素 ( 称 为 文档 
元 素 或 根 元 素 )。 所 有 其 他 元 素 必须 被 包含 在 顶层 元 素 中 。 因 此 ， 标 签 在 XML 文档 中 是 
必 不 可 少 的 。 

(2) 标签 名 称 中 含有 英文 字母 时 ， 大 小 写 有 所 区 分 ， 即 标签 中 大 小 写 是 敏感 的 。 
在 HIML 中 ， 标 签 <H> 和 <h> 是 相同 的 ， 但 是 在 XML 中 ， 它 们 是 两 个 截然 不 同 的 标签 。 

(3) 要 有 正确 的 结束 标签 。 结 束 标签 除了 要 和 开始 标签 在 拼写 和 大 小 写 形式 上 完 
全 相同 外 ， 还 必须 在 标签 名 称 前 面 加 上 一 个 斜 杠 “/”。 因 此 ， 如 果 开 始 标签 为 “<title>”， 
那么 结束 标签 应 该 为 “</title>”。 

(4) XML 严格 要 求 标签 配对 。 但 为 了 简便 起 见 ， 当 一 对 标签 之 间 没 有 任何 文本 内 
容 时 ， 可 以 不 写 结束 标签 ， 而 在 开始 标签 的 最 后 加 上 表示 结束 的 斜 本“/”， 这 样 的 标签 
称 为 空 标签 。 空 标签 一 般 都 有 属性 ， 有 属性 的 空 标签 表示 如 下 。 


< 标签 名 [属性 名 1 = "属性 值 1” [属性 名 2 = "属性 值 1"2] /> 


例如 : <price currency = "RMB"> 

(5) 标签 命名 要 合法 。 标 签名 由 用 户 给 定 ， 但 是 应 该 符合 如 下 XML 的 命名 规则 。 

О ”在 使 用 默认 编码 的 情况 下 ， 标 签名 可 以 由 字母 或 下 画 线 开 头 ， 后 面 跟 着 零 到 多 
个 的 字母 、 数 字 、 和 旬 点 “.”、 冒 号 “:”、 下 画 线 或 者 连 字 符 “-”。 在 指定 了 编码 
的 情况 下 ， 则 标签 名 称 除 了 上 述 字符 外 ， 还 可 以 出 现 该 字符 集中 的 合法 字符 。 

口 不 能 以 数字 开头 。 

а ”不 能 以 字符 串 “xml”( 任何 大 小 写 形式 ) 开头 。 


о 不 能 包含 空格 。 
а 不 能 包含 针 杠 “/" 
口 。、 最 好 不 以 冒号 开头 ， 尽 管 这 是 合法 的 ， 但 可 能 会 带 来 混淆 
空 元 素 没有 内 容 ， 但 它 可 以 有 一 些 相关 联 的 属性 。 可 以 只 加 入 开始 标签 和 结束 标签 
对 ， 而 不 在 其 中 包含 任何 内 容 ， 例 如 ， 


<logo></logo> 


当然 ， 如 果 只 是 想 指定 一 个 点 ， 而 不 是 提供 一 个 容器 ， 那 么 使 用 简写 形式 可 能 会 更 
好 ， 它 能 节省 些 空 间 。 这 可 以 用 <logo /> 元 素来 指出 ， 而 不 需 任何 内 容 。 所 以 ，XML 指 
定 空 元 素 可 以 用 简写 形式 表示 ， 它 是 开始 标签 和 结束 标签 的 混合 体 。 它 既 短 小 精 悍 ， 而 
且 还 能 明确 指出 该 元 素 不 会 有 任何 内 容 。 空 元 素 标签 由 一 个 元 素 类 型 名 称 紧 跟 一 个 正 斜 
杠 组 成 ， 并 封闭 在 一 对 尖 括 号 中 。 注 意 : 在 “/” 和 “>” 之 间 不 能 有 任何 空白 ， 在 开始 
标签 中 的 “<” 与 标签 名 称 之 间 也 不 能 有 任何 空白 。 

请 注意 : 与 HTML 相 比 , HTML 中 不 封闭 的 标记 (如 <br、<p>、<img> 等 ) 是 HTML 
继承 了 SGML 的 规定 ， 它 们 与 空 元 素 标签 不 同 〈 虽 然 它们 可 能 被 转换 成 空 元 素 标签 )， 
也 不 允许 在 XML 中 使 用 。 

空 元 素 标签 的 另 一 个 常见 应 用 包括 一 个 或 多 个 属性 。 这 与 XML 数据 中 点 的 想法 类 
似 。 例 如 ， 可 以 使 用 以 下 空 元 素 在 文本 数据 中 插入 图 像 。 


<1одо source = "companyLogo .gif" /> 
元 素 内 容 可 以 包括 下 列 几 种 类 型 。 
1. 字符 数据 


可 以 是 任何 合法 的 Unicode 字符 ， 不 仅 包含 来 自 英语 和 其 他 西欧 字母 表 中 的 常见 字 
母 与 符号 ， 也 包含 来 自古 斯 拉夫 语 、 和 希腊 语 、 希 伯 来 语 、 阿 拉 伯 语 、 汉 语 和 日 语 的 象形 
汉字 和 韩国 Hangul 音节 表 等 ， 但 不 能 包含 被 预 留 作 特殊 用 途 的 字符 ， 如 “<”， 因 为 该 
字符 被 预 留用 作 标 签 的 开始 符号 。 

为 了 避免 把 字符 数据 和 标签 中 需要 用 到 的 一 些 特殊 符号 相 混淆 , XML 还 提供 了 一 些 
有 用 的 预定 义 实体 (实体 及 其 引用 将 在 6.3 节 中 讲解 )， 可 以 不 必 提 前 说 明 而 引用 这 些 实 
体 来 代替 特殊 符号 。 表 6.1 列 出 了 5 个 XML 已 经 预定 义 的 字符 实体 。 

227 表 6.1 5 个 XML 预定 义 的 字符 实体 


实体 引用 


另外 ， 有 些 字符 无 法 从 键盘 输入 到 XML 文档 中 ， 例 如 希腊 字母 ， 此 时 可 以 使 用 字 
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符 引 用 来 解决 这 一 困难 。XML 支持 字符 引用 ， 例 如 “&#945:” 会 被 解析 器 替换 成 希腊 
字母 “a”。 所 谓 字符 引用 ， 就 是 使 用 字符 的 Unicode 代码 点 (字符 在 Unicode 字符 集中 
的 顺序 位 置 ) 来 引用 该 字符 。 以 “&#” 开 始 的 字符 引用 , 使 用 代码 点 的 十 进 制 ; 以 “&#x” 
开始 的 字符 引用 ,使 用 代码 点 的 十 六 进 制 。 对 于 Microsoft Windows 操作 系统 ， 可 以 使 用 
字符 映射 表 来 获取 字符 的 代码 点 (附件 一 系统 工具 一 字符 映射 表 )。 


2. CDATA 段 


包含 除 字符 串 “<![CDAIA[” 和 “]>” 之 外 的 任意 字符 的 文本 块 。 
3. 处 理 指令 


在 XML 文档 中 , 处 理 指令 是 用 来 给 处 理 XML 文档 的 应 用 程序 提供 的 处 理 相关 信息 。 
XML 解析 器 可 能 对 它 不 感 兴趣 ， 只 是 把 这 些 信息 原封 不 动 地 传 给 XML 应 用 程序 ， 由 应 
用 程序 来 解释 这 个 指令 ， 按 照 它 所 提供 的 信息 进行 处 理 ， 或 者 再 把 它 原封 不 动 地 传递 给 
下 一 个 应 用 程序 。 


4. 注释 


注释 是 对 XML 文档 内 容 的 补充 说 明 , 人 们 可 以 读 到 它 , 但 是 XML 解析 器 会 忽略 它 。 

前 面 已 介绍 ， 各 种 元 素描 述 了 XML 文档 的 逻辑 结构 。 对 于 一 个 稍微 复杂 的 文档 来 
说 ， 一 些 并 列 的 元 素 是 无 法 准确 描述 其 结构 的 。 因 此 ， 元 素 所 包含 的 内 容 要 求 不 仅 是 文 
档 的 原始 数据 ， 而 且 要 包含 其 他 的 元 素 ， 如 例 6.1 所 示 。 

元 素 中 包含 其 他 元 素 ， 这 就 构成 了 元 素 的 嵌 套 。 几 乎 所 有 的 XML 文档 都 是 由 髓 套 
的 元 素 构成 除非 整个 文档 只 有 一 个 元 素 )。XML 规定 ， 无 论文 档 中 有 多 少 元 素 ， 也 不 
管 这 些 元 素 是 如 何 排列 、 嵌 套 的 ， 最 后 所 有 的 元 素 都 必须 被 包含 在 一 个 称 为 “ 根 元 素 ” 
的 元 素 中 。 在 例 6.1 的 XML 文档 中 ， 所 有 的 元 素 都 包含 在 “books” 元 素 中 ， 这 就 构成 
T XML 文档 元 素 的 树 状 结构 。XML 对 于 元 素 的 嵌 套 ， 有 如 下 规则 。 

(1) 所 有 XML 文档 都 从 一 个 根 节点 开始 ， 该 根 节点 代表 文档 本 身 ， 根 节点 包含 一 
个 根 元 素 。 

(2) 文档 中 所 有 其 他 元 素 都 被 包含 (直接 或 间接 ) 在 根 元 素 中 。 

(з) 包含 在 根 元 素 中 的 元 素 称 为 根 元 素 的 子 元 素 ， 如 果 有 多 个 子 元 素 ， 则 这 些 子 
元 素 互 为 兄弟 ， 而 根 元 素 则 为 父 元 素 。 

(4) 子 元 素 还 可 以 包含 子 元 素 ， 因 此 ， 父 元 素 和 子 元 素 都 是 相对 而 言 的 。 如 例 6.1 
中 的 “book” 元 素 , 对 “books ”元素 而 言 , 它 是 子 元 素 , 但 它 又 是 “title” “рпсе" “authors” 
“isbn” 等 元 素 的 父 元 素 。 

(5) 包含 子 元 素 的 元 素 称 为 分 支 ， 没 有 子 元 素 的 元 素 称 为 树叶 。 


e 625 ЊЕ 


属性 是 元 素 的 可 选 组 成 部 分 ， 用 户 可 以 自己 定义 ， 作 用 是 对 元 素 及 其 内 容 的 附加 信 
息 进 行 描述 ， 由 使 用 等 号 “=” 分 隔 开 的 名 称 - 值 的 对 《〈 即 : 键 值 对 ) 构成 。 在 XML 中 ， 


所 有 属性 的 值 都 必须 用 引号 引起 来 。 单 引号 、 双 引号 均 可 ， 但 开始 和 结束 所 使 用 的 引号 
必须 相同 。 如 果 属 性 的 值 含有 单 引号 或 双 引 号 ， 则 可 以 使 用 表 61 中 所 表示 的 字符 实体 
引用 。 含 有 属性 的 标签 其 形式 如 下 所 示 : 


例如 ， 如 果 在 图 书信 息 中 想 表示 价格 的 货币 类 型 信息 ， 可 采用 如 下 形式 。 


那么 ， 什 么 时 候 使 用 属性 呢 ? 即 什么 样 的 信息 是 元 素 或 内 容 的 “附加 性 ”信息 呢 ? 
对 于 这 个 问题 没有 明确 的 规定 ， 一 般 来 讲 ， 具 有 下 述 特 征 的 信息 可 以 考虑 使 用 属性 进行 
表示 。 

(1) 与 文档 读者 无 关 的 简单 信息 。 

所 谓 “ 简 单 ” 是 指 没 有 子 结构 。 例 如 ，<Rectangle width = "100" height = "80" /> 中 
的 “Rectangle” 元 素 ， 其 目的 是 向 读者 展示 一 个 矩形 ， 但 矩形 的 大 小 与 读者 无 关 ， 而 且 
其 “ 宽 ” 与 “高 ”也 没有 子 结构 ， 在 这 种 情况 下 ， 就 可 以 将 矩形 的 长 、 宽 等 信息 作为 元 
素 的 属性 。 

(2) 与 文档 有 关 而 但 与 文档 的 内 容 无 关 的 简单 信息 。 

其 实 ， 有 些 信息 既 可 以 用 元 素 表示 ， 又 可 以 用 属性 来 表示 。 

使 用 元 素来 存储 书籍 信息 的 XML 文档 参见 例 6.2, 使 用 属性 来 存储 相同 信息 的 XML 
文档 参见 例 6.3。 


[ 例 6.2] book.xml 


[ 例 6.3] book attributes.xml 


原来 作为 元 素 的 title, authors, isbn, press, price 等 信息 变 成 了 元 素 的 属性 ， 这 样 
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做 完全 符合 XML 的 语法 规范 。 但 是 对 于 使 用 浏览 器 阅读 XML 文档 的 读者 来 说 , 两 种 表 
示 方 法 具有 不 同 的 显示 结果 ， 分 别 如 图 6.1 和 图 6.2 所 示 。 


С) bookoml Aa “ 
со O fie///E:/Research/88/_ свашта) Шљивели%ое.. п i 


This XML file does not appear to have any style 
information associated with it. The document tree is 
shown below. 
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| с а |O file///E/Research/868/_ (НАТ) ВЫНН/ВН206. w i 


| This XML file does not appear to have any style 
information associated with it. The document tree is 
shown below. 


向 对 象 程 
press= 


O 图 6.1 使 用 元 素 存储 信息 的 显示 结果 O 862 使 用 属性 存储 信息 的 显示 结果 


那么 ， 在 使 用 元 素 也 行 、 使 用 属性 也 行 的 情况 下 ， 到 底 使 用 哪 一 种 方式 更 好 、 更 准 
ИПИ? 对 于 这 个 问题 , XML 规则 没有 提供 明确 的 答案 , 具体 使 用 哪 种 方式 完全 取决 于 文 
档 编 写 者 的 经 验 。 下 面 所 介绍 的 只 是 基于 经 验 的 一 般 性 总 结 ， 而 不 是 规则 。 

(1) 在 将 已 有 文档 处 理 为 XML 文档 时 ,文档 的 原始 内 容 应 全 部 表示 为 元 素 ， 而 编 
写 者 增加 的 一 些 附加 信息 ， 如 对 文档 某 一 点 内 容 的 说 明 、 注 释 、 文 档 的 某 些 背 景 材料 等 
信息 可 以 表示 为 属性 ， 当 然 ， 前 提 是 这 些 信息 非常 简单 。 

(2) 在 创建 和 编写 XML 文档 时 ， 希 望 读 者 看 到 的 内 容 应 表示 为 元 素 ， 反 之 表示 为 
属性 。 在 XML 文档 中 加 入 样式 单 以 后 ， 属 性 一 般 不 会 在 浏览 器 中 显示 出 来 。 

(3) 实在 没有 明确 理由 表示 为 元 素 或 属性 的 ， 就 表示 为 元 素 。 因 为 元 素 比 属性 具 
有 更 大 的 灵活 性 ， 而 使 用 属性 存在 如 下 的 问题 。 

О о ”属性 不 能 包含 多 个 值 (元 素 可 以 ) 

о ”属性 不 容易 扩展 ; 

О ”属性 不 能 够 描述 结构 (元 素 可 以 )。 

属性 名 称 的 命名 规则 与 标签 的 命名 规则 类 似 。 

(1) 英文 名 称 必 须 以 英文 字母 或 者 下 画 线 开 头 ， 中 文 名 称 则 必须 以 中 文 文字 或 者 
下 画 线 开 头 。 

(2) 在 使 用 默认 编码 集 的 情况 下 ， 属 性 名 称 可 以 由 英文 字母 、 数 字 、 下 画 线 、 句 
点 “.”、 连 字符 “-” 等 构成 。 在 指定 了 编码 集 的 情况 下 ， 属 性 名 称 除 了 上 述 字 符 外 ， 还 
可 以 出 现 该 字符 集中 的 合法 字符 。 

G) 名 称 中 不 能 含有 空格 。 

(4) 名 称 中 含有 英文 字母 时 ， 严 格 区 分 大 小 写 形式 。 

G) 同一 个 元 素 不 能 有 多 个 名 称 相同 的 属性 ， 如 下 面 的 实例 是 不 合法 的 。 


<price currency = "RMB" currency = "USD">45.00</price> 


与 属性 名 称 不 同 , XML 对 属性 值 的 内 容 没有 很 严格 的 限制 。 它 是 包含 在 引号 内 的 一 


串 字 符 ， 只 要 遵守 下 面 的 规则 ， 用 户 就 可 以 为 属性 指定 任何 的 值 。 

(1) 使 用 单 引号 (') 或 双 引 号 〈") 来 分 隔 字符 串 。 

(2) 字符 串 不 能 包含 用 来 括 起 字符 串 的 引号 ， 如 果 属 性 值 包含 单 引 号 或 双 引号 ， 
则 需 使 用 另 一 种 引号 来 括 起 该 值 ， 或 使 用 字符 实体 引用 。 

(3) 字符 串 不 能 包括 “<” 字 符 。XML 解析 器 会 把 这 个 字符 与 XML 标签 的 开始 符 
号 相 混淆 。 

(4) 除了 在 实体 引用 的 起 始 位 置 之 外 ， 字 符 串 不 能 包含 “&” 字 符 。 

当然 ， 在 使 用 属性 之 前 首先 要 定义 属性 ， 这 一 部 分 的 内 容 在 后 续 内 容 中 进行 说 明 。 
另外 , 在 编写 处 理 XML 文档 的 程序 时 ， 要 注意 XML 元 素 的 属性 值 都 是 字符 串 ， 对 于 这 
样 的 属性 值 ， 如 果 需 要 在 程序 中 当 作 数 值 类 型 使 用 ， 则 必须 首先 进行 字符 串 数据 类 型 到 
相应 数值 数据 类 型 的 转换 。 


XML 人 允许 自 定 义 标 签 ， 那 么 不 同 XML 文件 以 及 同一 XML 文件 内 部 可 能 出 现 名 称 
相同 的 标签 。 如 果 要 区 分 这 些 标签 ， 就 需要 使 用 命名 空间 。 命 名 空间 的 目的 是 有 效 地 区 
分 名 称 相同 的 标签 ， 当 多 个 标签 的 名 称 相同 时 ， 可 以 通过 不 同 的 命名 空间 来 区 分 。 

介绍 命名 空间 之 前 ， 例 6.4 是 一 个 简单 的 XML 文件 。 

[| 6.4] Notes.xml 


例 6.4 中 的 XML 文件 用 于 存储 个 人 的 日 常 记录 信息 ， 第 一 个 book 元 素 表示 最 近 要 
学 习 的 书 的 信息 ， 第 二 个 book 元 素 表示 旅行 中 酒店 预订 的 信息 。XML 解析 器 在 解析 该 
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XML 文件 中 的 数据 时 ， 如 果 使 用 代码 : 

NodeList nodeList = element.getElementsByTagName ("book"); 
那么 返回 值 nodeList 中 将 含有 两 个 Node 对 象 。 如 果 只 想 解析 出 其 中 一 个 元 素 中 的 数据 ， 
就 必须 在 XML 文件 中 使 用 命名 空间 。 

命名 空间 通过 声明 命名 空间 来 建立 ， 有 以 下 两 种 方式 。 

(1) 有 前 级 的 命名 空间 。 

声明 有 前 缀 的 命名 空间 ， 其 语法 如 下 。 

< 标签 名 称 xmlns :前 级 = "命名 空间 的 名 称 ”> 

例如 : 


<book xmlns:reading = "http://www.buu.edu.cn/reading" > 


(2) 无 前 缀 的 命名 空间 。 
声明 无 前 组 的 命名 空间 ， 其 语法 如 下 。 


< 标签 名 称 xmlns = "命名 空间 的 名 称 ”> 
例如 : 


<book xmlns = "http://www.buu.edu.cn/travel" > 


需要 注意 的 是 ， 在 声明 命名 空间 时 ,“xmlns” 与 冒号 “:”、 冒 号 “:” 与 命名 空间 的 
前 级 之 间 都 不 能 有 空白 存在 。 

当 且 仅 当 它们 的 名 称 相 同时 ， 两 个 命名 空间 相同 。 也 就 是 说 ， 对 于 有 前 绥 的 命名 空 
间 ， 如 果 两 个 命名 空间 的 名 称 不 相同 ， 即 使 它们 的 前 缀 相同 ， 也 是 不 同 的 命名 空间 ， 如 
果 两 个 命名 空间 的 名 称 相 同 ， 即 使 它们 的 前 缀 不 相同 ， 也 是 相同 的 命名 空间 。 命 名 空间 
的 前 级 仅仅 是 为 了 方便 地 引用 命名 空间 而 已 。 下 列 声明 分 别 声 明了 三 个 不 同 的 命名 空间 。 

<book xmlns:reading = "http://www.buu.edu.cn/reading"> 


<book xmlns:Reading = "http://www.buu.edu.cn/Reading"> 
<book xmlns:travel = "http://www.buu.edu.cn/travel"> 


注意 : http://www.buu.edu.cn/reading 和 http://www.buu.edu.cn/Reading 是 不 同 的 命名 
空间 名 称 ， 因 为 XML 区 分 大 小 写 。 

命名 空间 的 声明 必须 在 元 素 的 “开始 标签 ”中 ， 而 且 命名 空间 的 声明 必须 放 在 开始 
标签 中 标签 名 字 的 后 面 ， 例 如 : 

<book xmlns:travel = "http://www.buu.edu.cn/travel" > 

一 个 标签 如 果 使 用 了 命名 空间 声明 ， 那 么 该 命名 空间 的 作用 域 是 该 标签 及 其 所 有 的 
子孙 标签 。 如 果 一 个 标签 中 声明 的 是 有 前 级 的 命名 空间 ， 那 么 该 标签 及 其 子孙 标签 如 果 
准备 隶属 该 命名 空间 ， 则 必须 通过 命名 空间 的 前 级 引用 这 个 命名 空间 ， 使 得 该 标签 隶属 
于 这 个 命名 空间 。 一 个 标签 通过 在 它 的 开始 标签 和 结束 标签 的 标签 名 字 前 添加 命名 空间 


的 前 缀 和 冒号 命名 空间 (前缀 、 冒 号 和 标签 名 字 之 间 不 要 有 空格 )， 表 明 此 标签 隶属 该 合 
名 空间 。 因 此 ， 在 例 6.4 的 基础 上 增加 命名 空间 的 声明 和 使 用 ， 参 见 例 6.5。 


[ 例 6.5] NotesNS xml (NS 代表 命名 空间 namespace) 


ra 
> с о [опол (йл? WiSS/RN206%208%200UTe/NoL. fe È 


This XML file does not appear to have any style information 
associated with it. The document tree is shown below. 


Y notes: 
Y ‘reading:book хајаз: reading=“http: / "www. buu. edu. cn reading”; 
《reading:ritle?java 面 向 对 象 程序 设计 </reading:rirle 
У “reading authors: 
《reading:author> 孙 连 英 </reading:euthor》 
creading:author>ži$</reading:author> 
“reading:author>8284 reading: author) 


</reading:authors: 
<reading: isbn>9787302489078</readins 
< pre 华 大 学 出 版 社 </ 


“book> 
Y стазе] ;book mmlns:travel=-http:/ 
《travel:hotel> 北 京 盘 古 七 星 大 : 
《travel:address) 北 京 市 朝 采 区 : 

топе 010-590677; 


O 863 使 用 命名 空间 的 XML 文档 的 显示 结果 


如 果 一 个 标签 中 声明 的 是 无 前 绥 的 命名 空间 ， 那 么 该 标签 及 其 子 标签 都 默认 地 隶属 
于 这 个 命名 空间 。 
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下 面 的 XML 文件 中 , 所 有 的 标签 都 隶属 于 同一 个 名 称 为 “http:/www buu.edu.cn/reading” 
的 命名 空间 。 
<book xmlns = "http://www.buu.edu.cn/reading"> 
<title>Java 面向 对 象 程序 设计 </title> 
<authors> 
<author> 孙 连 英 </author> 
<author> 刘 畅 </author> 
<author> 彭 涛 </author> 
</authors> 
<isbn>9787302489078</isbn> 
<press> 清 华 大 学 出 版 社 </press> 
<price>45.00</price> 
</book> 


尽管 子 标签 可 以 通过 命名 空间 的 前 缀 来 引用 父 标 签 声 明 的 有 前 缀 的 命名 空间 ， 但 是 
子 标签 也 可 以 在 其 开始 标签 处 重新 声明 自己 的 命名 空间 。 因 此 ， 子 标签 和 父 标签 可 以 属 
于 不 同 的 命名 空间 。 这 给 某 些 要 求 非常 灵活 的 XML 应 用 领域 带 来 了 很 大 的 便利 。 另 外 ， 
即使 父 标 签 声明 的 是 无 前 级 的 命名 空间 ， 子 标签 仍然 可 以 重新 声明 命名 空间 。 

命名 空间 的 目的 是 有 效 地 区 分 名 称 相同 的 标签 ， 那 么 命名 空间 本 身 的 名 称 就 成 为 一 
个 值得 关注 的 问题 。W3C 推荐 使 用 统一 资源 标识 符 (Uniform Resource Identifier, URI) 
作为 命名 空间 的 名 称 。URI 是 有 一 定 的 语法 、 用 来 标识 资源 的 一 个 字符 串 。 一 个 URI 可 
以 是 一 个 E-mail 地 址 、 一 个 文件 的 绝对 路 径 、 一 个 Internet 主机 的 域名 等 ， 例 如 : 


"SmartSearch@163.com" 
"D:\\XML Book\\Codes\\Chapter02\\books.xml" 
www.buu.edu.cn 


需要 注意 的 是 ， 在 XML 中 ， 一 个 URI 不 必 是 有 效 的 。XML 使 用 URI 仅仅 是 为 了 
区 分 命名 空间 的 名 称 而 已 ,在 实践 中 ,大 多 数 URI 实 际 上 就 采用 统一 资源 定位 符 (Uniform 
Resource Locator, URL), f: 


xmlns = "www.buu.edu.cn" 
xmlns:buu = http://www.buu.edu.cn 


如 果 在 浏览 器 的 地 址 栏 中 输入 www.buu.edu.cn 或 者 http:/www.buu.edu.cn， 访问 的 
是 同一 个 Web 站 点 。 但 是 在 XML 中 ， 上 述 两 个 是 完全 不 同 的 命名 空间 ， 因 为 二 者 是 不 
同 的 字符 串 。 另 外 ， 如 果 在 浏览 器 中 输入 http://www.buu.edu.cn/hello html， 可 能 会 得 到 
“404 File not found” 的 错误 提示 。 但 是 对 于 XML， 它 可 以 作为 命名 空间 的 名 称 。 因 为 
在 XML 中 ， 一 个 URI 不 必 是 有 效 的 ， 也 就 是 说 ， 它 不 必 指 向 一 个 真实 存在 的 资源 。 

在 编写 XML 文档 时 ， 往 往 使 用 本 公司 、 机 构 注册 的 域名 作为 命名 空间 的 名 称 的 一 
部 分 。 例 如 ， 在 Microsoft Word (2003 及 更 高 版 本 ) 中 可 以 把 дос 文件 另存 为 XML X: 
件 ， 其 文档 根 元 素 的 开始 标签 如 下 。 


<w:wordDocument 


xmlns:w="http://schemas.microsoft.com/office/word/2003/wordml" 
xmlns:v="urn:schemas-microsoft-com:vml" 
xmlns:w10="urn:schemas-microsoft-com:office:word" 
xmlns:sl="http://schemas.microsoft.com/schemaLibrary/2003/core" 
xmlns:aml="http://schemas.microsoft.com/aml/2001/core" 
xmlns:wx="http://schemas.microsoft.com/office/word/2003/auxHint" 
xmlns:o="urn:schemas-microsoft-com:office:office" 
xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-O0AA00C14882"..> 


该 XML 文档 中 大 多 数 的 标签 属于 前 缀 为 “w” 名 称 为 “http://schemas.microsoft.com/ 
office/word/2003/wordml” 的 命名 空间 ， 该 命名 空间 的 名 称 即 使 用 了 Microsoft 公司 的 域名 。 


6.3 DTD 


从 前 两 节 可 以 看 出 ，XML 的 规则 非常 简单 。 在 创建 XML 文档 时 ， 可 以 根据 文档 包 
含 的 元 素 和 属性 把 文档 进行 分 组 ， 同 一 组 文档 具有 相似 的 文档 类 型 。 在 XML 文档 中 ， 
组 成 一 个 文档 类 型 的 元 素 和 属性 称 为 文档 的 词汇 。6.2 节 还 讲述 了 如 何 使 用 命名 空间 在 一 
个 XML 文档 里 使 用 多 个 词汇 。 本 节 将 介绍 如 何 定义 自己 的 文档 类 型 ， 以 及 如 何 检查 某 
个 文档 是 否 符合 词汇 的 语法 规则 。 

假设 需要 开发 一 个 应 用 程序 , 需要 处 理 的 图 书 XML 文档 如 例 6.2 所 示 。 在 这 个 示例 
中 ， 已 创建 了 一 个 简单 的 XML 文档 ， 这 个 XML 文档 的 根 元 素 为 book， 该 元 素 中 又 有 
title, authors, isbn, press, price 等 子 元 素 。 现 在 有 存储 了 图 书信 息 的 一 个 XML 文档 ， 
那么 如 何 验 证 这 个 XML 文档 的 有 效 性 呢 ? 一 种 方案 是 在 应 用 程序 中 编写 一 些 代码 检查 
元 素 的 正确 性 和 顺序 的 正确 性 。 但 是 如 果 需 要 修改 文档 类 型 ， 那 怎么 办 呢 ? 这 就 不 得 不 
修改 应 用 程序 ， 而 且 可 能 需要 修改 很 多 地 方 。 

在 标记 语言 中 ， 根 据 文档 内 容 的 规则 来 验证 文档 的 有 效 性 是 非常 普遍 的 。 事 实 上 ， 
它 是 如 此 普遍 ， 以 至 于 XML 的 设计 者 在 XML 推荐 标准 里 增加 了 一 个 验证 文档 的 方法 。 
一 个 XML 文档 有 效 是 指 XML 文档 内 容 符合 元 素 、 属 性 和 其 他 文档 内 容 的 定义 。 利 用 专 
用 的 文档 类 型 定义 (Document Type Definitions, DTD) 和 专用 的 解析 器 ， 可 以 验证 一 个 
XML 文档 的 有 效 性 。XML 推荐 标准 把 解析 器 分 为 两 类 : 有 验证 功能 的 解析 器 和 无 验证 
功能 的 解析 器 。 根 据 XML 的 推荐 标准 ， 前 者 必须 利用 DTD 实现 有 效 性 验证 。 有 了 上 有 具有 
验证 功能 的 解析 器 ， 就 可 以 删除 应 用 程序 中 用 于 XML 内 容 的 验证 代码 ， 让 解析 器 根据 
DTD 来 验证 XML 文档 的 有 效 性 。 


Ф - 631 第 一 个 DTD- 


` 
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下 面 在 例 6.2 的 XML 文档 中 添加 DTD 定义 ， 如 例 6.6 所 示 。 
[ 例 6.6] book2.xml 


<?xml version = "1.0" encoding = "UTF-8" 2> 
<!DOCTYPE book [ 
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下 面 对 这 个 包含 DTD 的 XML 文件 进行 分 析 ， 第 1 行为 : 
RE | 


正如 前 面 已 经 看 到 的 ， 所 有 的 XML 文档 开头 都 有 这 一 行内 容 。 此 外 ， 这 一 行内 容 
是 可 选 的 , 但 是 强烈 建议 在 文档 的 开头 插入 这 一 行内 容 , 目的 是 避免 将 来 发 生 版 本 冲突 。 
紧 跟 在 XML 版 本 声明 语句 后 面 的 是 文档 类 型 声明 ， 常 用 DOCTYPE 表示 。 


它 告诉 解析 器 ， 当 前 的 XML 文档 需要 与 一 个 DTD 文件 一 起 使 用 。 在 XML 文档 使 
用 DTD 文件 时 ，DOCTYPE 必须 放 在 文档 的 开头 〈 只 允许 XML 版 本 声明 语句 在 它 的 前 
面 )， 不 能 放 在 文档 的 其 他 位 置 。 

DOCTYPE 声明 语句 的 第 一 个 字符 必须 是 一 个 “!” 符 号 。XML 推荐 标准 规定 ， 
声明 元 素 必须 以 “!” 开 头 。 声 明 元 素 是 DTD 的 一 部 分 ， 不 允许 出 现在 XML 的 主体 
内 容 里 。 

至 此 , UEH, DTD 的 规则 与 XML 文档 的 规则 差别 很 大 。DTD 最 初 用 在 标准 通 
用 标记 语言 (SGML) 中。 为 了 维护 与 SGML 的 兼容 性 ，XML 的 设计 者 决定 继续 使 用 
这 种 SGML 声明 语言 。 事 实 上 ，XML 中 的 DTD 语法 比 SGML 中 的 DTD 简单 。 因 此 为 
了 构建 DID 语句 ， 必 须 在 XML 文档 的 规则 之 外 学 习 新 的 语法 规则 。 

例 6.6 中 ， 建 立 了 相对 比较 简单 的 DOCTYPE 声明 语句 ， 紧 跟 在 DOCTYPE 语句 后 
面 的 是 DTD 定义 的 主体 ， 在 DID 主体 中 可 以 声明 元 素 、 属 性 、 实 体 和 注释 。 

这 里 声明 了 几 个 元 素 ， 它 们 组 成 了 <book> 文 档 的 词汇 。 与 DOCTYPE 声明 一 样 ， 
元 素 声明 的 第 一 个 字符 也 必须 是 感叹 号 (“!”)。 最 后 是 DTD 声明 的 结束 符 (“]>”)， 


它 用 一 个 右 方 括号 和 大 于 号 表示 ， 这 样 就 结束 了 DTD 文档 类 型 的 定义 ， 紧 接 其 后 的 
是 XML 文档 。 

现在 已 看 到 了 ртр 语句 和 验证 解析 器 的 作用 。 即 使 是 一 个 很 小 的 XML 文档 ， 验 证 
有 效 性 的 过 程 也 需要 相当 的 时 间 。 因 此 在 很 多 情形 中 ， 可 能 不 需要 使 用 DTD。 例 如 ， 当 
XML 文档 是 由 自己 的 公司 设计 的 ， 或 者 机 器 生成 的 〈 即 不 是 手工 输入 的 )， 则 它们 的 正 
确 性 相对 有 保障 ， 基 本 上 都 会 遵循 已 建立 的 词汇 的 规则 。 这 种 情况 下 ， 就 没有 必要 进行 
文档 的 有 效 性 验证 。 事 实 上 ， 验 证 过 程 会 严重 影响 整个 程序 的 运行 性 能 。 


文档 类 型 声明 (DOCTYPE) 告诉 解析 器 ，XML 文档 必须 遵循 DID 定义 。 同 时 也 
告诉 解析 器 ， 到 哪里 找 文档 定义 的 其 他 内 容 。 在 例 6.6 中 ，DOCTYPE 语句 很 简单 : 


(!DOCTYPE book []) 


文档 类 型 声明 总 是 以 <IDOCTYPE 开始 , 在 DOCTYPE 的 后 面 是 一 些 空白 符 ， 就 
像 标 签名 称 后 面 有 空白 一 样 。 此 外 ,在 <! 与 DOCTYPE 单词 之 间 不 能 有 空白 符 。 在 空 
白 符 之 后 是 XML 文档 的 根 元 素 名 。 它 必须 与 XML 文档 里 的 根 元 素 完全 一 样 ， 包 括 
它 的 前 级 。 由 于 例 6.6 中 XML 文档 的 根 元 素 是 <book>， 因 此 book 出 现在 了 
<IDOCTYPE 之 后 。 

记 住 : XML 是 区 分 大 小 写 形式 的 , 因此 ，XML 文档 中 的 任何 名 称 都 要 区 分 大 小 写 。 
XML 推荐 标准 要 求 DTD 声明 中 的 名 称 必 须 与 XML 文档 中 的 名 称 完 全 一 样 ， 包 括 大 小 
写 都 要 一 样 ， 在 DTD 中 都 是 这 样 。 任 何 对 XML 名 称 的 引用 都 要 区 分 大 小 写 。 

在 根 元 素 的 名 称 之 后 ， 可 以 使 用 几 种 不 同 的 方法 来 定义 DTD 的 其 余 内 容 。 在 例 6.6 
中 ， 元 素 声明 必须 放 在 DTD 声明 的 “[” 与 “] ”之 间 。 当 声明 像 例 6.6 中 出 现在 “[” 和 

“]” 之 间 时 ， 这 种 声明 称 为 内 部 子 集 声明 。 另 外 一 种 情况 是 ， 部 分 或 全 部 声明 都 保存 在 
单独 一 个 DTD 文件 中 。 保 存在 外 部 文档 中 的 DTD 声明 称 为 外 部 子 集 声明 。 在 XML X: 
档 中 ， 引 用 外 部 DTD 有 两 种 方法 : 系统 标识 符 和 公共 标识 符 。 


1. 系统 标识 符 
利用 系统 标识 符 可 以 说 明 一 个 含有 DTD 定义 的 外 部 文件 的 位 置 ， 由 两 部 分 组 成 : Ж 


键 字 SYSTEM 和 指向 DTD 位 置 的 URL 引用 。 这 个 URL 引用 的 可 以 是 硬盘 上 的 一 个 文件 ， 
也 可 以 是 内 部 网 或 局 域 网 上 的 一 个 文件 ， 甚 至 可 以 是 mtemet 上 的 一 个 文件 ， 例 如 : 


<!DOCTYPE book SYSTEM "book.dtd" [...]> 


在 声明 语句 的 根 元 素 名 称 之 后 是 SYSTEM. SYSTEM 之 后 是 表示 DTD 文件 位 置 的 
URL 引用 ， 必 须 使 用 引号 。 下 面 的 文档 类 型 声明 都 使 用 了 系统 标识 符 。 
<!DOCTYPE book SYSTEM "Е11е:///с:/роок.ака" []> 


<!DOCTYPE book SYSTEM "http://www.buu.edu.cn/book.dtd" []> 
<!DOCTYPE book SYSTEM "book.dtd" > 
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在 上 面 最 后 一 个 DTD 声明 中 ， 没 有 “[” 和 “]” 字 符 ， 这 完全 是 可 以 的 。 在 XML 
文档 中 , 定义 一 个 内 部 子 集 是 可 选 的 。 一 个 XML 文档 可 能 使 用 一 个 只 含 内 部 子 集 的 DTD 
文件 ， 也 可 能 使 用 一 个 只 含 外 部 子 集 的 DTD 文件 ， 也 可 能 这 两 类 DID 文件 都 使 用 。 如 
果 要 定义 一 个 内 部 子 集 ， 则 必须 插入 到 系统 标识 符 SYSTEM 之 后 的 “[” 与 “]” 两 个 字 
符 之 间 。 


2. 公共 标识 符 
公共 标识 符 提 供 了 定位 DTD 资源 的 第 二 种 方法 : 
<! DOCTYPE пате PUBLIC "-//Beginning XML//DTD Мапе Example//EN"> 


与 系统 标识 符 非 常 相似 ， 公 共 标 识 符 以 PUBLIC 关键 字 开 始 ， 其 后 紧 跟 着 一 个 专用 
的 标识 符 ， 但 是 公共 标识 不 是 用 来 表示 文件 的 引用 ， 而 是 表示 目录 中 的 一 个 记录 。 根 据 
XML 规范 , 公共 标识 符 可 以 采用 任何 格式 , 但 是 一 种 经 常 使 用 的 格式 是 正式 公共 标识 符 

(Formal Public Identifier, ЕРІ). 

ЕРІ 的 语法 是 由 ISO 9070 文档 定义 的 。 该 文档 同时 也 定义 了 ЕРІ 的 注册 和 记录 过 程 。 
ISO( 国 际 标准 化 组 织 ) 是 一 个 专门 负责 制定 政府 认可 的 标准 的 组 织 。 访 问 http://www.iso.ch 
可 以 了 解 更 多 有 关 ISO 这 个 标准 化 组 织 的 信息 。 

FPI 的 语法 要 匹配 下 面 的 基本 结构 。 


-//Owner//class Description//Language//Version 


从 底层 的 角度 来 看 ， 公 共 标 识 符 的 作用 与 命名 空间 的 作用 类 似 ， 但 是 公共 标识 符 不 
能 把 两 个 不 同 的 词汇 组 合 到 同一 个 文档 里 。 就 这 一 点 而 言 ， 命 名 空间 比 公共 标识 符 的 功 
能 更 强大 。 

在 标识 符 字符 串 之 后 ， 还 可 以 插入 一 个 可 选 的 系统 标识 符 。 这 样 ， 当 处 理 器 不 能 解 
析 公 共 标 识 符 时 ,可 以 查找 这 个 文档 的 副本 (大 多 数 处 理 器 不 能 解析 公共 标识 符 )。 当 插 
入 了 一 个 系统 标识 符 时, 可 以 不 使 用 SYSTEM 关键 字 , 这 一 点 与 只 使 用 系统 标识 符 时 不 
同 。 下 面 是 一 个 有 效 的 文档 类 型 声明 ， 它 声明 了 一 个 公共 标识 符 。 


<!РОСТУРЕ book PUBLIC "-//BUU//DTD Name//EN" "book.dtd"> 
这 个 声明 假定 , 为 一 个 根 元 素 为 <book> 的 文档 定义 了 一 个 DTD, 它 的 公共 标识 符 是 : 
-//BUU//BUU Book DTD//EN 


如 果 解 析 器 不 能 解析 它 ， 还 有 一 个 URL 指向 一 个 名 为 book.dtd 的 文件 ， 此 处 没有 
定义 内 部 子 集 。 

在 XML 开发 中 经 常用 到 公共 标识 符 。 事 实 上 ， 许 多 Web 浏览 器 利用 公共 标识 符 机 
制 来 识别 XHTML 文档 的 版 本 .例如 ,许多 XHTML 网 页 利用 公共 标识 符 一 一 /W3CWDTD 
XHTML 1.0 Strict/EN 识别 插入 在 文档 的 DID。 当 Web 浏览 器 读 取 网 页 时 ， 使 用 一 个 与 
公共 标识 符 相 对 应 的 内 置 DTD， 而 不 是 从 Internet 下 载 一 个 副本 。 这 使 得 Web 浏览 器 可 
以 在 本 地 的 高 速 缓存 中 访问 DTD， 因 而 大 大 减少 了 处 理 时 间 。 当 开发 一 个 应 用 程序 时 ， 


可 以 使 用 同样 的 方法 。 利 用 公共 标识 符 可 以 提供 一 种 识别 词汇 的 方法 ， 在 这 方面 ， 它 与 
命名 空间 的 作用 是 相同 的 。 

下 面 来 建立 一 个 外 部 DTD 文件 ， 并 把 它 插入 到 一 个 XML 文档 里 。 可 以 采用 内 部 子 
集 、 外 部 子 集 或 二 者 兼 而 有 之 。 当 使 用 内 部 子 集 时 , ОТ” 声明 出 现在 XML 文档 的 内 部 ; 
当 使 用 外 部 子 集 时 ，DTD 声明 出 现在 单独 的 一 个 文件 中 。 例 6.6 中 使 用 的 是 内 部 子 集 。 
利用 外 部 ртр, 很 容易 实现 与 公司 甚至 整个 行业 里 其 他 人 共享 同一 个 词汇 。 同样 ,也 可 
以 共享 其 他 公司 或 组 织 开发 的 词汇 ， 方 法 是 引用 他 们 建立 的 外 部 DTD 文件 。 

重新 组 织 例 6.6 中 的 XML 文档 ， 把 其 中 的 DTD 定义 从 XML 文档 中 独立 出 来 ， 放 
在 单独 一 个 文件 book3.dtd 中 ， 如 例 6.7 所 示 。 新 建 一 个 XML 文档 ， 名 称 为 book3.xml， 
其 内 容 与 例 6.6 的 内 容 类 似 ， 如 例 6.8 所 示 。 


[ 例 6.7] book3.dtd 


[ 例 6.8] book3.xml 


例 6.8 的 XML 文档 中 ， 使 用 了 一 个 外 部 DTD 文件 进行 约束 。 该 XML 文档 采用 了 
DTD 进行 内 容 的 约束 ， 这 种 XML 文档 称 为 XML 实例 文档 。 可 以 看 出 ，DTD 的 语法 几 
平 没有 变化 。 内 部 DTD 与 外 部 DID 的 主要 区 别 是 ， 在 外 部 DID 中 没有 DOCTYPE 声 
明 ， 该 声明 总 是 在 XML 文档 的 开头 。 此 外 ,在 该 XML 文档 中 没有 定义 内 部 子 集 ， 而 是 
利用 公共 标识 符 和 系统 标识 符 指定 了 验证 程序 要 使 用 的 DID 文件 。 

例 6.8 中 ， 验 证 程序 无 法 解析 公共 标识 符 。 但 是 ， 处 理 器 在 验证 时 可 以 通过 XML 
文档 中 的 URL 地 址 来 找到 所 使 用 的 DID 文件 。 在 该 示例 中 ，XML 解析 器 必须 找到 
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book3.dtd 文件 。 由 于 URL 引用 采用 了 相对 地 址 〈 没 有 网 站 地 址 和 驱动 器 符号 )， 解 析 器 
就 从 当前 目录 开始 查找 ， 当 前 目录 是 指正 在 解析 的 XML 文档 所 在 的 目录 。XML 推荐 标 
准 并 没有 规定 解析 器 应 该 如 何 处 理 相对 URL 引用 ， 但 是 大 多 数 XML 解析 器 把 XML X 
档 所 在 的 路 径 作为 当前 路 径 , 这 也 正 是 例 6.8 所 采用 的 办 法 .在 使 用 相对 URL 引用 之 前 ， 
必须 检查 通过 URL 地 址 引用 的 文件 是 否 存 在 。 

使 用 外 部 DTD 在 很 多 情形 中 是 有 利 的 。 例如 ,由 于 DTD 定义 保存 在 单独 一 个 文 
件 里 ， 因 此 修改 比较 容易 。 如 果 同 一 段 DTD 内 容 在 XML 文档 里 重复 多 次 ， 则 修改 
就 非常 麻烦 。 但是, 寻找 外 部 的 DTD 文件 需要 额外 的 处 理 时 间 。 此 外 ， 当 DTD 文件 
位 于 Internet 上 ， 解 析 器 必须 等 待 它 从 Internet 下 载 。 因 此 可 以 在 本 地 保存 一 个 DTD 
的 副本 用 于 验证 ， 如 果 在 本 地 保存 了 一 个 DTD 的 副本 ， 则 需 经 常 检查 在 原来 位 置 的 
DTD 是 否 已 更 新 。 

在 实际 中 ， 大 多 数 DTD 比例 6.7 中 的 DTD 要 复杂 得 多 ， 因 此 最 好 实现 词汇 共享 ， 
并 且 使 用 通用 的 DTD。 在 动手 建立 自己 的 DTD 定义 之 前 ， 如 果 知道 从 哪里 可 以 下 载 现 
有 的 DTD 定义 那 会 大 大 减轻 负担 。 共 享 ртр 不 仅 解除 了 自行 建立 DTD 定义 的 麻烦 ， 
而 且 更 容易 与 共享 同一 个 词汇 的 其 他 公司 和 其 他 XML 开发 商 融合 为 一 体 。 

很 多 个 人 和 行业 已 经 开发 了 很 多 DTD， 它 们 成 为 事实 上 的 标准 。 例 如 ， 化 学 工作 者 
利用 化 学 标记 语言 (Chemical Markup Language, CML) 的 DTD 定义 来 验证 他 们 共享 的 
XML 文档 。 抵 押 行 业 ， 许 多 企业 把 抵押 业 标 准 维护 机 构 的 DTD 应 用 于 信息 交换 。 
XHTML, R|) HTML 4.01 的 XML 版 拥有 三 个 DTD， 它 们 是 过 渡 型 、 严 格 型 和 框架 型 。 
这 三 个 DTD 定义 了 XHTML 可 以 使 用 的 词汇 。 有 了 这 些 DTD， 浏 览 器 的 开发 者 能 够 在 
XHTML 文档 显示 之 前 ， 确 保 内 容 的 有 效 性 。 

为 了 找到 某 个 特定 行业 需要 的 DTD, 可 以 借助 很 多 方法 。 方法 之 一 是 使 用 常用 的 搜 
索引 擎 。 在 绝 大 多 数 情形 中 , 用 搜索 引擎 可 以 得 到 令 人 满意 的 结果 。 方法 二 是 浏览 Cover 
Pages 网 站 ， 该 网 站 上 有 很 多 有 价值 的 XML 资料 ， 它 由 Robin Cover 维护 ， 网 址 是 
http://xml.coverpages.org/。 此 外 ， 也 可 以 到 都 柏林 核心 元 数据 计划 (Dublin Core Metadata 
Initiative) 网 站 搜索 ， 这 是 一 个 致力 于 建立 可 互 操作 标准 的 在 线 资源 ， 网 址 是 http:// 
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前 面 已 经 介绍 了 元 素 的 声明 ， 本 节 就 声明 元 素 的 细节 做 深入 讨论 。 当 使 用 DTD ж 
义 一 个 XML 文档 的 内 容 时 ， 必 须 定 义 XML 文档 中 的 每 一 个 元 素 。DTD 也 可 以 对 可 选 
元 素 进行 声明 ， 可 选 元 素 是 指 在 XML 文档 中 可 能 出 现 ， 也 可 能 不 出 现 的 元 素 。 

元 素 声明 由 以 下 三 部 分 组 成 。 

口 ELEMENT 声明 ; 

О “元素 名 称 ; 

О 元 素 内 容 模型 。 

在 例 6.7 的 DTD 中 ， 文 档 根 元 素 book 的 元 素 声 明 为 : 


<!ELEMENT book (title, authors, isbn, press, price)> 


ELEMENT 声明 告诉 解析 器 当前 声明 了 一 个 元 素 。 与 DOCTYPE 声明 非常 相似 ， 
ELEMENT 声明 前 必须 有 一 个 感叹 号 。 这 个 声明 符 只 能 出 现在 ртр 内 容 里 。 紧 跟 在 
ELEMENT 关键 字 后 的 是 需要 定义 的 元 素 名 .与 DOCTYPE 声 明 一 样 ,元 素 名 必须 与 XML 
文档 里 的 元 素 名 完全 相同 ， 包 括 命 名 空间 前 级 。 

ртр 中 必须 指定 命名 空间 的 前 级 ， 这 是 DTD 的 一 个 主要 局 限 。 因 为 这 就 意味 着 用 
PE XML 文档 中 不 能 根据 需要 来 定义 命名 空间 前 组 符 , 而 必须 使 用 DTD 中 已 经 定义 的 
命名 空间 前 级 符 。 之 所 以 存在 这 样 一 个 局 限 ， 是 由 于 W3C 在 最 终 定稿 命名 空间 的 作用 
之 前 ， 已 经 完成 了 XML 推荐 标准 。 在 6.4 节 可 以 看 到 ， 使 用 XML Schema 进行 词汇 的 
定义 就 没有 这 种 限制 。 

元 素 的 内 容 模型 必须 出 现在 元 素 名 称 之 后 。 一 个 元 素 的 内 容 模型 定义 了 可 人 允许 的 元 
素 内 容 。 一 个 元 素 可 能 包含 一 个 子 元 素 、 一 段 文本 或 子 元 素 与 文本 的 组 合 ， 也 允许 元 素 
的 内 容 为 空 。 这 正 是 DTD 的 核心 ， 这 样 就 可 以 定义 XML 文档 的 结构 。 就 XML 推荐 标 
准 而 言 ， 有 4 类 内 容 文档 ， 它 们 是 : 


О 元 素 内 容 ; 
口 混合 内 容 ; 
口 空 内 容 ; 
口 任意 内 容 。 
1. 元 素 内 容 


在 XML 文档 中 , 许多 元 素 还 含有 其 他 元 素 。 事实 上 , 这 正 是 开发 XML 最 主要 的 理 
由 。 为 了 定义 一 个 包含 元 素 内 容 的 内 容 模型 ， 只 须 将 元 素 插 入 到 后 面 的 括号 中 。 例 如 ， 
有 一 个 book 元 素 ， 只 允许 有 一 个 title 子 元 素 ， 则 book 元 素 的 DTD 定义 如 下 。 
<!ELEMENT book (title) > 


事实 上 ， 在 图 书信 息 中 ，book 元 素 远 远 不 止 包含 title 一 个 元 素 ， 在 例 6.8 的 XML 文档 
rB, book 元 素 的 子 元 素 包括 title, authors, isbn, press 和 price 等 ， 其 DTD 定义 如 下 。 


<!ЕЉЕМЕМТ book (title, authors, isbn, press, price)> 


在 元 素 的 内 容 模型 中 出 现 的 每 一 个 元 素 也 必须 有 自己 的 DTD 定义 。 因 此 ， 在 上 面 
的 这 段 DTD 定义 中 ， 还 需要 使 用 ELEMENT FHKE Х title, authors, isbn, press 和 
price 元 素 ， 这 样 才能 得 到 一 个 完整 的 DID 定义 。 另 外 ， 即 使 一 个 元 素 在 多 个 内 容 模型 
中 出 现 , 也 只 需要 声明 一 次 。XML 推荐 标准 不 允许 在 DTD 中 对 同一 个 名 称 〈 包 括 元 素 、 
属性 和 实体 ) 重复 定义 。 

处 理 器 需要 读 取 元 素 的 声明 信息 ， 才 能 知道 如 何 处 理 这 些 元 素 。ELEMENT 声明 的 
顺序 并 不 重要 ， 但 是 元 素 名 称 必须 与 XML 文档 中 的 元 素 名 称 完全 相同 ， 如 果 使 用 了 命 
名 空间 ， 则 命名 空间 也 要 完全 相同 。 

即使 是 在 例 6.1 中 那样 简单 的 XML 文档 中 ， 一 个 元 素 也 有 多 个 子 元 素 ， 这 种 情 
况 在 XML 中 是 非常 普遍 的 。 定 义 元 素 的 子 元 素 ， 有 两 种 基本 的 方法 : 顺序 组 合 和 选 
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择 组 合 。 

顺序 组 合 是 定义 元 素 时 采用 的 主要 方法 。 通 常 在 有 些 XML 文档 中 ， 一 个 元 素 的 子 
元 素 必须 按 一 定 的 顺序 排列 。 对 于 这 种 情况 ， 可 以 采用 顺序 组 合 的 方法 来 定义 该 元 素 的 
内 容 模型 。 当 定义 一 个 顺序 组 合 时 ， 必 须 把 各 子 元 素 的 名 称 放 在 这 个 组 合 里 ， 各 子 元 素 
之 间 用 逗号 分 隔 。 此 外 ， 在 整个 组 合 的 前 面 是 需要 定义 的 父 元 素 的 名 称 。 在 声明 内 容 模 
型 时 ， 如 果 不 止 一 个 子 元 素 ， 则 必须 使 用 一 个 顺序 组 合 ，DTD 定义 如 下 。 


<!ЕЉЕМЕМТ book (title, authors, isbn, press, price)> 


在 这 段 DTD 定义 中 , 元 素 声 明 表 示 book 元 素 必 须 有 5 个 子 元 素 : title. authors, isbn, 

press 和 price， 而 且 子 元 素 的 名 称 要 完全 相同 ， 顺 序 也 要 完全 一 致 。 
如 果 在 XML 实例 文档 中 少 了 DTD 定义 的 顺序 组 合 中 的 某 个 子 元 素 , 或 者 多 了 一 个 
子 元 素 ， 解 析 器 就 会 报告 错误 。 如 果 XML 实例 文档 中 有 了 声明 中 的 全 部 子 元 素 ， 但 是 
不 是 按 title. authors, isbn, press, price 元 素 这 种 顺序 出 现 ， 解 析 器 也 会 报告 错误 。 

另外 需要 注意 的 是 ， 在 只 含有 元 素 的 内 容 模型 里 (例如 前 面 的 book 元 素 )， 各 子 元 
素 之 间 是 否 有 空白 并 不 重要 。 因 此 ， 利 用 前 面 的 DTD 声明 ，book 元 素 中 的 内 容 可 以 指 
定 为 如 例 6.8 所 示 的 XML 实例 文档 。 在 该 XML 实例 文档 中 ， 各 子 元 素 之 间 包 含 换行 和 
制 表 符 两 个 空白 字符 。 

由 于 各 子 元 素 之 间 的 空白 字符 并 不 重要 ， 因 此 book 的 内 容 也 可 以 如 下 所 示 。 
роок><Е 1Е1е>Јама 面向 对 象 程序 设计 </title><authors><author> 孙 连 英 
</author><author> 刘 畅 </author><author> 喜 涛 </author></authors> 
<isbn>9787302489078</ispbn><press> 清 华 大 学 出 版 社 </press><price> 
45.00</price></book> 


在 仅 含 有 元 素 的 内 容 模型 里 ， 元 素 之 间 的 空白 字符 只 是 为 了 增加 可 读 性 ， 对 XML 
实例 文档 的 有 效 性 没有 任何 意义 。 

2. 混合 内 容 

XML 推荐 标准 规定 任何 以 文本 为 内 容 的 元 素 是 一 个 混合 内 容 模 型 元 素 。 在 混合 内 容 
模型 里 ， 文 本 可 以 单独 出 现 ， 也 可 以 与 其 他 元 素 交 错 在 一 起 。 只 含有 文本 的 元 素 称 为 纯 
文本 元 素 。 

定义 混合 内 容 模型 的 规则 与 定义 元 素 内 容 模 型 的 规则 类 似 。 在 例 6.3 的 DID 定义 中 ， 
已 经 包含 几 个 最 简单 的 混合 内 容 模型 〈 纯 文本 ) 的 例子 。 


<!ELEMENT title (#PCDATA) > 


在 这 个 声明 中 ， 在 内 容 模型 的 括号 里 使 用 了 关键 字 刀 CDAIA。PCDAIA 是 Parsed 
Character Data 〈 被 解析 的 字符 数据 )。 这 个 关键 字 表 示 ，XML 实例 文档 中 的 字符 数据 需 
要 解析 。 下 面 是 一 个 符合 该 声明 的 例子 。 


<title>Java 面向 对 象 程序 设计 </title> 
混合 内 容 模型 的 内 容 也 可 以 同时 包含 文本 和 子 元 素 。 例 如 ， 需 要 在 book 元 素 中 加 


入 一 些 说 明 ， 可 以 创建 一 个 <description> 元 素 ， 在 这 个 元 素 里 可 以 使 用 换行 符 以 及 斜体 
和 粗 体 等 符号 。 


<description>Java 面向 对 象 程序 设计 简介 
<em> 作 者 : 孙 连 英 、 刘 畅 、 彭 涛 </em> 
本 书 是 进 阶 式 讲解 Java 程序 设计 的 教材 ， 案 例 丰 富 ， 习 题 、 实 验 、 配 套 资 
源 完 备 。 课 件 下 载 处 为 本 书 PPT 课件 和 课 后 习题 答案 ， 更 新 时 间 为 
2017-12-25, <br/> 


<strong>https: / /www.amazon.cn/dp/B078B3YCGT/</strong> 
版 权 所 有 


</description> 


这 个 例子 里 ,使 用 了 一 个 description 元 素 ， 该 元 素 的 内 容 是 一 些 文本 与 em СК 
体 )、strong〈 表 示 粗 体 ) 以 及 br (换行 符 ) 等 元 素 交 错 在 一 起 的 混合 内 容 。 如 果 熟 悉 
HTML 或 XHTML， 就 可 知道 em、strong 和 br 等 元 素 的 含义 。 在 HTML 里 ， 经 常 使 用 
混合 内 容 模 型 来 表示 HTML 文档 的 内 容 。 

在 DTD 文件 中 ， 定 义 混合 内 容 模型 只 有 一 种 办 法 。 在 混合 内 容 模型 中 如 果 需 要 增 
加 元 素 ， 则 必须 使 用 选择 组 合 ， 这 意味 着 在 内 容 模型 里 必须 有 至 少 一 个 紧 线 分 隔 符 ， 上 
述 description 元 素 的 定义 如 下 。 


<!ELEMENT description (#PCDATA | em | strong | br)* > 


注意 ， 在 使 用 选择 组 合 来 描述 内 容 模型 时 ， 子 元 素 之 间 必 须 使 用 竖 线 分 隔 符 ， 而 不 
能 使 用 逗号 分 隔 符 。 

当 混 合 内 容 模型 中 还 包括 子 元 素 时 ， 关 键 字 #PCDATA 必须 出 现在 子 元 素 列 表 的 第 
一 个 位 置 。 解析 器 据 此 就 可 以 知道 它 正在 处 理 一 个 混合 模型 内 容 , 而 不 是 元 素 内 容 模型 。 
与 只 含 元 素 的 内 容 模型 不 同 ， 在 混合 内 容 模型 中 不 能 再 嵌 套 声明 混合 内 容 模型 。 

在 上 述 description 元 素 的 定义 中 ， 混 合 内 容 模型 的 括号 外 有 一 个 星 号 。 当 在 混合 内 
容 模 型 里 加 入 子 元素 时 ， 必 须 在 内 容 模型 的 结尾 位 置 插入 一 个 星 号 ， 其 目的 是 告诉 解析 
器 重复 此 内 容 模型 。 星 号 在 DTD 中 属于 量词 符号 ， 其 目的 是 用 来 表示 出 现 的 次 数 。 

由 于 使 用 了 一 个 重复 的 选择 组 合 模式 〈 星 号 量词 符号 )， 就 不 能 再 控制 混合 内 容 中 
的 子 元 素 的 个 数 和 顺序 。 例 如 ， 在 description 元 素 中 ，em 子 元 素 、strong FICK., br Ý 
元 素 和 文本 内 容 出 现 的 次 数 没 有 限制 ， 而 且 它们 出 现 的 顺序 也 没有 任何 要 求 。 

一 个 元 素 的 出 现 次 数 是 指 这 个 元 素 在 内 容 模 型 中 出 现 的 次 数 。 内 容 模 型 中 的 每 个 元 素 
名 后 面 都 有 一 个 量词 符号 表示 该 元 素 的 出 现 次 数 。DTD 有 4 个 量词 符号 ， 如 表 6.2 所 示 。 
22: #62 DTD 中 的 量词 符号 


量词 符号 


表示 元 素 必须 出 现 且 只 能 出 现 一 次 。 这 是 内 容 模型 中 元 素 的 默认 方式 
表示 元 素 出 现 零 次 或 一 次 
表示 元 素 出 现 一 次 或 多 次 
表示 元 素 出 现 零 次 或 多 次 
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总 之 ， 在 混合 内 容 模型 中 声明 子 元 素 时 ， 它 们 必须 遵循 以 下 规则 。 
О О ”必须 使 用 选择 组 合 ( 坚 线 符号 ) 来 分 隔 各 子 元 素 ; 

О 关键 字 # 术 CDATA 必须 出 现在 子 元 素 列表 的 最 前 面 ; 

о 其 中 不 能 再 谋 套 内 容 模型 ; 

О 如 果 有 子 元 素 ， 则 量词 符号 必须 出 现在 模型 的 最 后 。 


3. 空 内 容 
有 些 元 素 可 以 有 内 容 ， 也 可 以 没有 内 容 。 


<comment>6</comment> 
<comment></comment> 


元 素 comment 有 时 有 内 容 ， 有 时 没有 内 容 。 在 XML 文档 中 ， 有 些 元 素 可 能 永远 没 
有 内 容 。 事 实 上 ， 在 很 多 情况 下 ， 在 某 些 元 素 里 插入 文本 或 其 他 子 元 素 是 毫 无 意义 的 。 
例如 , 可 以 在 <description> 元 素 中 插入 <br> 元 素 表示 换行 符 , 但 是 在 <br> 元 素 中 插入 文本 
是 毫 无 意义 的 。 而 且 从 理论 上 讲 ， 在 <br/> 元 素 里 无 法 插入 其 他 东西 。 这 是 空 内 容 模型 的 
最 好 例子 。 

定义 一 个 空 内 容 模型 的 元 素 ， 只 需 在 声明 中 使 用 EMPTY 关键 字 ， 紧 跟 在 元 素 名 称 
的 后 面 ， 代 码 如 下 。 


<!ELEMENT br EMPTY> 


该 声明 要 求 br 元 素 在 XML 文档 中 必须 是 一 个 空 元 素 。 不 能 使 用 EMPTY 关键 字 
来 声明 可 能 有 内 容 的 元 素 ， 如 <comment> 元 素 ， 该 元 素 在 XML 文档 中 可 能 有 内 容 ， 
也 可 能 没有 内 容 。 实 际 上 ， 即 使 一 个 元 素 在 DTD 中 并 没有 被 声明 为 空 内 容 模型 ， 该 
元 素 在 XML 文档 中 仍然 可 以 是 空 内 容 。 由 于 <comment> 元 素 可 能 会 有 内 容 ， 因 此 在 
DTD 中 定义 该 元 素 时 ， 不 能 使 用 EMPTY 关键 字 ， 而 是 使 用 混合 内 容 模型 来 声明 该 
元 素 。 

4. 任意 内 容 


最 后 , 可 以 使 用 АМУ 关键 字 声 明 一 个 元 素 。 当 使 用 ANY 关键 字 来 声明 内 容 模型 时 ， 
表示 其 内 容 不 受 约束 。 例 如 ， 使 用 АМУ 关键 字 来 声明 <description> 元 素 : 


<!ЕЉЕМЕМТ description АМУ> 


在 这 个 例子 里 ， 使 用 ANY 关键 字 表 示 任 何在 DID 中 声明 的 元 素 都 可 以 作为 
description 元 素 的 内 容 。 人 允许 它们 按 任意 顺序 、 以 任意 次 数 出 现在 description 元 素 中 。 
但 是 ANY 关键 字 不 允许 使 用 没有 在 DID 中 声明 的 元 素 。 除 了 元 素 之 外 ， 任 何 字符 内 容 
也 可 以 出 现在 description 元 素 中 。 

由 于 DTD 是 用 来 限制 元 素 内 容 的， 因此 АМУ 关键 字 使 用 的 并 不 多 ， 它 对 已 声明 元 
素 的 内 容 几乎 不 加 任何 限制 。 


e-: 6.3.4 声明 属性 f= 


` 
А 


在 很 多 方面 ， 属 性 声明 的 语法 与 元 素 声明 类 似 。 前 面 介绍 了 元 素 的 内 容 模型 ， 本 节 
讲述 如 何 声明 元 素 的 属性 。 属 性 的 声明 需要 使 用 ATTLIST 关键 字 : 


<!ELEMENT books (book+)> 
<!ATTLIST books source CDATA #IMPLIED> 


上 述 定义 中 ， 第 一 条 语句 声明 了 元 素 books， 并 说 明 该 元 素 至 少 包含 一 个 book 子 元 
素 。 第 二 条 语句 是 ATTLIST 声明 ， 声 明了 books 元 素 的 属性 ， 为 books 元 素 定义 了 一 个 
source 属性 。 

AITLIST 声明 包括 以 下 三 部 分 的 基本 内 容 。 

口 AITLIST 关键 字 ; 

О 属性 所 属 的 元 素 名 称 ; 

口 属性 列表 。 

与 其 他 声明 语句 一 样 ，ATTLIST 声明 的 首 字符 必须 是 一 个 感叹 号 ， 表示 这 是 DTD 
定义 的 声明 语句 。 紧 跟 在 ATTLIST 关键 字 之 后 的 是 元 素 的 名 称 , 在 上 述 定义 中 ,元 素 的 
名 称 是 books， 这 表示 当前 定义 的 属性 属于 books 元 素 。 

一 般 在 元 素 名 称 之 后 定义 属性 。 一 个 ATTLIST 声明 语句 可 以 定义 任意 数量 的 属性 ， 
每 个 属性 由 以 下 三 部 分 组 成 。 

а 属性 的 名 称 ; 

о 属性 的 类 型 ; 

口 属性 的 取 值 方式 。 

下 面 来 逐一 分 析 source 属性 声明 的 每 一 部 分 内 容 。 


source CDATA #IMPLIED 


在 该 属性 声明 语句 中 ， 属 性 的 名 称 是 source， 关 键 字 CDATA 是 属性 类 型 ， 表 示 该 
属性 的 值 是 字符 数据 ;最 后 一 部 分 是 打 MPLIED 关键 字 ， 表 示 该 属性 没有 默认 的 值 ; 使 
J Y #IMPLIED 关键 字 声明 的 属性 可 以 不 出 现在 元 素 中 。 属 性 声明 中 的 第 三 部 分 是 值 声 
明 (Value Declaration)， 控 制 解 析 器 如 何 处 理 属 性 的 值 。 


1. 属性 的 名 称 


属性 的 名 称 类 似 于 元 素 的 名 称 。 在 声明 属性 时 ， 必 须 遵守 XML 基本 的 命名 规则 。 
除了 遵守 这 些 基 本 规则 外 ， 属 性 列表 中 不 能 出 现 重复 的 属性 名 称 。 一 个 元 素 不 能 包含 重 
复 的 属性 名 。 在 XML 实例 文档 中 使 用 的 属性 名 必须 与 DTD 中 定义 的 属性 名 完全 相同 ， 
包括 它们 的 命名 空间 前 缀 。 

就 DTD 定义 而 言 ， 像 xmlns:buubooks = "http://www.buu.edu.cn/books" 的 命名 空间 声 
明 也 被 视 为 属性 ,虽然 推荐 标准 坚持 认为 xmlns 语句 是 声明 而 非 属性 ,但 是 如 果 要 在 DTD 
中 定义 xmlns， 则 必须 在 ATTLIST 中 进行 声明 。 这 同样 是 由 于 W3C 在 命名 空间 标准 出 
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来 之 前 DTD 语法 已 经 制定 完毕 。 

2. 属性 的 类 型 

在 声明 属性 时 , 必须 说 明 处 理 器 如 何 处 理 属 性 值 中 的 字符 数据 。 在 元 素 声明 语句 中 ， 
可 以 说 明 元 素 包含 文本 内 容 , 但 是 没有 说 明 处 理 器 如 何 处 理 文本 内 容 。 为 解决 这 个 问题 ， 
属性 声明 引入 了 几 个 新 内 容 。 在 表 6.3 中 列 出 了 各 个 不 同 的 属性 类 型 。 
2 表 6.3 DTD 中 属性 的 类 型 


描 述 
表示 属性 值 是 字符 数据 。 注 意 与 ELEMENT 声明 中 的 PCDATA 关键 字 稍 有 不 同 。 
解析 器 在 解析 CDATA 时 ， 会 忽略 某 些 保留 字 ， 在 这 一 点 上 与 PCDATA 不 同 
ID 可 以 唯一 确定 包含 它 的 元 素 的 属性 值 

IDREF 表示 属性 值 是 一 个 ID 的 引用 ， 引 用 一 个 可 标识 的 唯一 元 素 
IDREFS 表示 属性 值 为 一 个 由 空白 符 分 隔 的 IDREF 列表 
属性 值 是 一 个 外 部 非 解 析 实 体 (有 关 实 体 的 更 多 内 容 将 在 本 章 后 续 内 容 中 介绍 。 不 
可 解析 实体 可 能 是 一 个 图 像 文件 或 其 他 外 部 资源 ， 如 .mp3 文件 或 其 他 二 进 制 文件 ) 
ENTITIES ”| 属性 值 是 一 个 由 空白 符 分 隔 的 ENTITY 列表 
属性 值 是 一 个 名 称 标记 。 一 个 名 称 标记 (name token) 是 一 个 字符 数据 串 ， 由 标准 
的 、 人 允许 用 于 命名 的 字符 组 成 

ММТОКЕМЅ | 属性 值 是 一 个 由 空白 符 分 隔 的 NMTOKEN 列表 
Enumerated List | 除了 默认 类 型 值 ， 属 性 值 还 可 以 是 枚 举 值 列表 


紧 跟 在 属性 名 称 之 后 的 是 属性 的 类 型 。 下 面 详细 讨论 每 种 属性 类 型 。 
1) CDATA 
CDATA 是 属性 的 默认 类 型 ， 表示 属性 的 值 是 字符 数据 。 处 理 器 不 会 对 CDATA 值 进 
行 任何 的 类 型 检查 ,因为 它 是 最 基本 的 数据 类 型 。 毫 无 疑问 , XML 的 结构 良好 规则 仍然 
起 作用 ， 但 是 只 要 内 容 是 结构 良好 的 ， 处 理 器 会 把 任何 文本 当成 CDATA。 
2) ID. IDREF 和 IDREFS 
类 型 为 ID 的 属性 在 XML 文档 中 可 以 唯一 地 标识 一 个 元 素 。 如 果 为 一 个 元 素 已 经 定 
义 了 一 个 ID 性 质 的 属性 ， 以 后 就 可 以 通过 该 属性 来 引用 这 个 元 素 。 对 元 素 进行 唯一 性 
标识 是 XML 的 重要 技术 之 一 。 在 HTML 和 CSS 中 ， 经 常 通过 元 素 的 ID 属性 来 对 元 素 
进行 引用 。 在 JavaScript 中 ， 也 经 常 通过 ID 属性 来 访问 HTML 文档 中 的 元 素 。 
使 用 ID 属性 时 ， 要 遵循 以 下 规则 。 
(1) ID 类 型 的 属性 名 必须 遵循 XML 的 命名 规则 ; 
(2) ID 类 型 的 属性 值 在 整个 XML 文档 中 必须 是 唯一 的 ; 
(3) 一 个 了 D 类 型 的 属性 只 能 属于 一 个 元 素 ; 
Са) ID 类 型 的 属性 必须 声明 为 有 MPLIED 或 {REQUIRED。 
假设 想 给 book 元 素 增加 一 个 ID 属性 ， 该 属性 代表 该 图 书 在 https://www. amazon.cn 
上 的 唯一 性 编码 : 


NMTOKEN 


<!ATTLIST book ASIN ID #REQUIRED> 
在 XML 实例 文档 中 增加 一 个 唯一 性 的 IJD (8: 
<book АЅІМ= "B078B3YCGT"> 


ASIN 已 被 声明 为 一 个 ID 属性。 以 图 书 中 的 图 书 亚马逊 编号 作为 ASIN 属性 值 ， 保 
证 了 每 个 属性 值 的 唯一 性 。ID 类 型 的 属性 值 必须 唯一 ， 也 就 是 说 不 同 元 素 的 ID 属性 值 
不 能 相同 。 

定义 IDREF 属性 也 有 如 下 类 似 的 规则 。 

口 IDREF 类 型 的 属性 值 必 须 遵循 XML 的 命名 规则 ; 

口 IDREF 类 型 的 属性 值 必 须 与 XML 文档 中 的 某 个 ID 值 相 对 应 。 

3) ENTITY 和 ЕМТІТІЕЅ 

属性 可 以 包含 不 可 解析 实体 的 引用 。 一 个 不 可 解析 实体 是 指 一 个 解析 器 不 能 解析 的 
外 部 文件 。 例 如 ， 外 部 图 像 文件 就 是 一 个 不 可 解析 实体 。 与 其 把 图 像 文件 插入 到 XML 
文档 中 ， 还 不 如 利用 一 个 特殊 属性 来 插入 对 这 个 外 部 文件 的 引用 。 在 DTD 定义 中 ,使 
用 ENTITY 关键 字 可 以 定义 一 个 可 重用 的 引用 。 

首先 来 看 ENTITY 属性 类 型 的 一 些 规则 。 在 ENTITY 属性 中 引用 的 对 象 必须 是 已 经 
在 DTD 的 其 他 位 置 已 经 定义 好 的 对 象 。 此外， 如 果 要 引用 一 个 ENTITY, 属性 值 必须 符 
合 XML 的 命名 规则 。 分 析 下 面 的 属性 声明 : 


<!ATTLIST book cover ENTITY #IMPLIED> 


把 cover 定义 为 实体 属性 后 ， 就 可 以 在 XML 实例 文档 中 引用 这 个 实体 属性 名 : 


<book cover = "PictureOfB078B3YCGT"> 


cover 属性 引用 了 一 个 名 为 PictureOfB078B3YCGT 的 实体 ,这 里 假定 已 经 在 DTD 的 
某 个 位 置 声 明了 名 称 为 PictureOfB078B3YCGT 的 实体 。 

ENTITLES 属性 类 型 表示 由 空白 符 分 隔 的 ENTITY 列表 。 因 此 可 以 声明 如 下 的 实体 
列表 。 


<!ATTLIST book covers ENTITIES #IMPLIED> 
下 面 的 语句 引用 了 上 面 这 个 实体 列表 ， 这 个 引用 是 有 效 的 : 


<book covers = "PictureOfB078B3YCGT-Small 
PictureOfB078B3YCGT-Large"> 


covers 的 实体 名 仍然 是 有 效 的 ， 两 个 实体 名 由 空白 符 分 隔 。 两 个 实体 名 之 间 可 以 有 
一 个 换行 符 和 若干 空格 符 ， 这 是 合法 的 ， 因 为 XML 处 理 器 并 不 关心 两 个 值 之 间 有 多 少 
空白 符 。XML 处 理 器 会 把 任意 个 空格 符 、 跳 格 符 、 换 行 符 和 回 车 符 都 当 作 空白 符 。 

4) NMTOKEN 和 NMTOKENS 

经 常 需 要 在 属性 中 引用 一 个 概念 或 一 个 单词 , 可 以 是 一 个 元 素 名 称 、 一 个 实体 名 称 、 
一 个 属性 名 称 或 者 其 他 任何 概念 。 实 际 上 ，NMTOKEN 的 属性 值 不 需要 声明 。 有 了 
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NMTOKEN 类 型 属性 ， 可 以 创建 一 个 属性 值 ， 该 属性 值 只 要 符合 XML 命名 规则 ，XML 
处 理 器 就 认为 有 效 。 

假设 要 给 book 元 素 增加 一 个 tag 属性 ， 利 用 它 为 book 元 素 定 义 一 个 会 引起 人 们 注 
意 的 关键 字 : 


<!ATTLIST book tag NMTOKEN #IMPLIED> 


tag 属性 允许 取 以 下 的 值 : 
<book tag = "aaaa"> 


在 XML 的 命名 规则 中 ， 名 称 的 首 字符 不 能 是 数字 ， 但 是 ММТОКЕМ 的 属性 值 不 受 
这 个 规则 约束 。NMTOKEN 值 的 第 一 个 字符 可 以 是 包括 数字 在 内 的 任何 名 称 字符 。 

与 其 他 属性 类 型 一 样 ， NMTOKENS 类 型 也 是 一 个 由 多 个 NMTOKEN 值 组 成 、 由 空 
白字 符 分 隔 的 列表 。 例 如 ， 可 以 定义 一 个 tags 属性 ， 它 的 值 可 以 由 aaaa、bbbb 和 cece 
等 NMTOKEN 值 组 成 ， 如 下 所 示 。 


<!ATTLIST book tags ММТОКЕМ5 #IMPLIED> 
下 面 是 tags 属性 的 值 。 
<book tags = "aaaa bbbb" > 


注意 在 DTD 中 不 需要 定义 aaaa、bbbb 和 сссс 等 ， 它 们 都 是 合法 的 NMTOKEN 值 。 

5) 枚 举 类 型 

显然 ， 能 够 检查 属性 值 的 类 型 是 非常 有 必要 的 。 假 设 某 个 属性 只 允许 某 组 值 ， 那 么 
可 以 利用 现 有 的 类 型 限制 这 个 属性 值 。 但 是 这 还 不 够 , 例如， 表示 股 票 最 新 价格 的 price 
元 素 增加 一 个 currency 属性 ， 表 示 该 价格 的 货币 种 类 ， 其 值 可 能 是 RMB、USD、EUR、 
HKD 等 。 这 些 值 都 是 字符 数据 ， 因 此 可 以 使 用 CDATA 类 型 。 但 此 时 值 42 也 是 合法 的 ， 
因为 这 也 是 字符 数据 ,这 不 是 我 们 所 希望 的 .另外 一 种 办 法 是 利用 NMTOKEN 属性 类 型 ， 
因为 这 4 个 值 都 是 有 效 的 NMTOKEN， 但 同时 也 允许 像 Blog 这 样 的 值 。 因 此 最 好 能 进 
一 步 限 制 该 属性 的 值 。 

使 用 枚 举 类 型 可 以 实现 上 述 功能 。 在 声明 属性 的 同时 定义 一 个 允许 值 的 列表 。 声 明 
时 ， 在 每 个 枚 举 值 之 后 可 以 使 用 任意 个 空白 符 ， 每 个 值 必须 是 一 个 有 效 的 XML 名 称 ， 
值 本 身 不 能 有 空白 符 。 使 用 枚 举 类 型 定义 一 个 currency 属性 ， 如 下 所 示 。 

<!ATTLIST price currency (RMB | USD | EUR | HKD) #IMPLIED> 

在 小 括号 中 列 出 了 各 个 允许 的 值 ， 各 个 值 之 间 使 用 竖 线 进行 分 隔 。 上 述 声 明 表 示 ， 
currency 属性 的 值 必须 满足 列表 中 的 某 一 个 值 ， 而 且 只 能 是 其 中 的 一 个 。 列 表 中 的 每 个 
元 素 必须 是 一 个 有 效 的 NMTOKEN (Ё. NMTOKEN 类 型 与 XML 名 称 非常 相似 ， 只 是 前 
者 的 首 字符 可 以 是 数字 字符 。 下 面 一 些 例子 ， 使 用 了 这 个 刚 定 义 的 currency 属性 。 


<price currency = "RMB"> 


下 例 定 义 的 currency 属性 值 是 无 效 的 。 


<price currency = "ЕМВ USD"> 
或 
<price currency = "rmb"> 


<price currency = "RMB USD"> 无 效 ， 是 因为 使 用 了 枚 举 列表 中 的 多 个 值 。 

<price currency = "rmb"> 无 效 ， 是 因为 列表 中 的 КМВ 值 是 大 写 的 ， 而 XML 代码 中 
currency 属性 值 中 的 rmb 是 小 写 的 。 由 于 XML 是 区 分 大 小 写 形式 的 ， 因 此 属性 列表 中 
的 值 也 是 区 分 大 小 写 的 。 


3. 属性 的 取 值 方式 


声明 属性 时 ， 需 要 说 明 属性 值 的 取 值 方式 。 可 以 在 DTD 中 声明 属性 时 给 该 属性 指 
定 一 个 默认 值 ， 也 可 以 在 XML 实例 文档 中 给 该 属性 赋值 ， 也 可 以 要 求 该 属性 的 值 为 某 
个 固定 值 。 在 DTD 中 声明 属性 时 必须 说 明 上 述 这 些 属性 值 的 取 值 方式 。 

根据 XML 推荐 标准 ， 属 性 的 值 可 以 按 以 下 4 种 方式 来 设置 。 

1) 默认 值 

有 时 候 ， 即 使 在 XML 实例 文档 中 没有 明确 给 属性 赋值 ， 也 希望 该 属性 有 某 个 值 ， 
那么 这 个 值 就 是 默认 值 。 在 为 某 个 属性 设置 了 默认 值 后 ， 它 一 定 会 出 现在 最 后 的 输出 结 
果 中 。 在 处 理 文档 时 ，XML 解析 器 如 果 发 现 XML 实例 文档 没有 定义 属性 值 ， 就 自动 插 
入 该 属性 的 默认 值 。 如 果 一 个 属性 既 有 默认 值 ， 又 在 XML 实例 文档 中 给 该 属性 赋值 ， 
则 XML 实例 文档 中 的 值 优 先 于 默认 值 。DTD 中 的 属性 默认 值 只 对 XML 解析 器 有 用 。 
能 够 为 属性 指定 默认 值 是 DTD 最 有 价值 的 特性 之 一 。 

定义 一 个 属性 的 默认 值 非常 容易 ， 只 需 在 属性 类 型 后 插入 一 个 用 引号 表示 的 值 即 可 。 


<!ATTLIST price currency (RMB | USD | EUR | HKD) "RMB"> 


在 这 个 例子 里 , 修改 了 前 面 的 currency 属性 声明 语句 , 给 该 属性 指定 了 一 个 默认 值 ， 
默认 值 是 RMB 。 验 证 解析 器 在 读 取 price 元 素 时 ， 如 果 currency 属性 还 没有 赋值 ， 则 自 
动 插入 RMB 作为 currency 属 性 的 值 . 如 果 解 析 器 发 现在 price 元 素 中 已 经 定义 了 currency 
属性 的 值 ， 那 么 就 使 用 这 个 值 。 

在 给 属性 指定 默认 值 时 ， 必 须 确 保 这 个 值 与 属性 的 类 型 一 致 。 例 如 ， 如 果 属 性 类 型 
是 NMTOKEN， 那 么 默认 值 必须 是 一 个 有 效 的 名 称 标记 。 如 果 属 性 类 型 是 CDATA, Jj 
么 默认 值 可 以 是 任何 结构 良好 的 XML 字符 数据 。 

不 能 给 ID 类 型 的 属性 设 定 默 认 值 。 如 果 一 个 验证 解析 器 给 多 个 ID 类 型 的 属性 插入 
同一 个 默认 值 , 那么 这 些 元 素 的 ID 值 就 不 再 具有 唯一 性 了 , 整个 XML 文档 因此 也 无 效 。 

2) 固定 值 

在 某 些 情况 下 ， 属 性 值 可 以 是 固定 不 变 的 。 如 果 某 个 属性 值 固定 不 变 ， 那 么 可 以 使 
用 杆 IXED 关键 字 ， 之 后 紧 跟 这 个 固定 值 。 固 定 值 在 许多 方面 与 默认 值 相似 。 解 析 器 在 
解析 XML 文档 时 ， 当 遇 到 一 个 固定 值 的 属性 时 ， 就 把 这 个 固定 值 插入 到 这 个 属性 里 。 

固定 属性 值 的 一 个 常见 应 用 是 指定 版 本 号 。DTD 的 作者 经 常 为 某 个 专用 的 DID Ж 
件 指定 一 个 固定 的 版 本 号 : 
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<!ATTLIST books version CDATA #FIXED "1.0"> 


与 默认 值 一 样 ， 在 定义 属性 的 固定 值 时 ， 这 个 值 必 须 与 属性 的 类 型 一 致 。 与 默认 值 
声明 一 样 ， 在 声明 固定 值 时 ， 不 能 为 ID 类 型 的 属性 值 设 定 一 个 固定 值 。 固 定 值 与 默认 
值 的 不 同 点 在 于 ， 一 旦 给 定 了 固定 值 ， 在 XML 实例 文档 中 就 不 能 再 为 该 属性 指定 其 他 
的 值 ， 否 则 该 XML 实例 文档 就 不 是 有 效 的 。 

3) 必需 值 

当 把 某 个 属性 设置 为 REQUIRED (必需 值 ) 时 ， 表 示 该 属性 必须 出 现在 XML 实例 
文档 中 。 一 个 XML 实例 文档 要 正常 工作 ， 就 必须 有 该 属性 。 这 是 约束 XML 实例 文档 内 
容 的 一 种 方式 。 例 如 ， 把 currency 属性 设置 为 必需 值 : 


<!ATTLIST price currency (RMB | USD | EUR | HKD) #REQUIRED> 


这 表示 ，XML 实例 文档 中 的 每 个 price 元 素 都 必须 有 currency 属性 。 如 果 解 析 器 在 
解析 XML 文档 时 遇 到 了 一 个 没有 currency 属性 的 price 元 素 ， 则 报告 一 个 错误 信息 。 

要 把 某 个 属性 声明 为 必需 值 ， 只 需要 在 属性 类 型 的 后 面 加 上 # 术 EQUIRED 关键 字 即 
可 。 如 果 某 个 属性 已 设 为 必需 值 ， 那 么 不 能 再 为 这 个 属性 设置 一 个 默认 值 ， 也 就 是 说 ， 
关键 字 #REQUIRED 和 默认 值 是 互 斥 的 。 

4) 隐 含 值 

在 某 些 情况 下 ,声明 的 属性 既 不 是 必需 的 ， 也 没有 默认 值 或 固定 值 。 在 这 种 情况 下 ， 
该 属性 可 能 出 现在 元 素 中 , 也 可 能 不 出 现 , 这 种 属性 称 为 隐 含 属性 (IMPLIED)。 当 XML 
文档 中 包含 隐 含 属性 时 ，XML 解析 器 只 是 检查 在 XML 实例 文档 中 指定 的 属性 值 是 否 符 
合 相应 的 属性 类 型 。 如 果 这 个 值 不 符合 属性 类 型 的 规则 ， 则 解析 器 报告 一 个 验证 错误 ; 
如 果 在 XML 实例 文档 中 相应 的 元 素 没 有 该 属性 ， 则 XML 解析 器 不 做 任何 处 理 。 

在 声明 属性 时 需要 声明 属性 的 取 值 方式 。 如 果 属 性 没有 默认 值 ， 也 没有 固定 值 ， 也 
不 是 必需 的 ， 那 么 必须 把 它 声明 为 隐 含 的 。 把 一 个 属性 声明 为 隐 含 的 ， 只 需 在 属性 类 型 
之 后 加 上 #MPLIED 关键 字 即 可 ， 定 义 如 下 。 


<!ATTLIST book titles IDREFS #IMPLIED> 


到 目前 为 止 , 上 述 示例 中 的 ATTLIST 声明 都 只 定义 了 一 个 属性 。 但 是 一 些 元 素 需 要 
多 个 属性 。 实 际 上 ， 通 过 ATTLIST 语句 也 可 以 声明 多 个 属性 ， 如 下 所 示 。 


<!ATTLIST book version CDATA ФЕТХЕР "1.0" 
source СРАТА #IMPLIED > 


这 个 ATTLIST 声明 语句 定义 了 book 元 素 的 两 个 属性 : version 属性 和 source 属性 。 
其 中 ，version 属性 取 固 定 值 "1.0"， 类 型 为 字符 数据 ;而 source 属性 的 值 也 是 字符 数据 ， 
但 是 source 属性 是 隐 含 的 。 如 果 需 要 声明 多 个 属性 ， 就 像 本 例 ， 各 属性 之 间 必 须 使 用 空 
白 符 分 隔 。 在 这 个 例子 中 ， 两 个 属性 之 间 使 用 了 一 个 换行 符 。 为 了 使 两 个 属性 的 声明 对 
齐 ， 第 二 个 属性 声明 的 前 面 加 了 一 些 空白 字符 。 在 声明 多 个 属性 时 经 常 使 用 这 种 方法 。 
除了 可 以 在 一 个 ATTLIST 声明 语句 里 定义 多 个 属性 外 ， 也 可 以 为 一 个 元 素 多 次 使 用 
AITLIST 声明 ， 每 次 定义 一 个 属性 ， 如 下 所 示 。 


<!ATTLIST book version CDATA #FIXED "1.0"> 
<!ATTLIST book source CDATA #IMPLIED> 


上 述 两 种 方式 都 可 以 定义 多 个 属性 ， 并 且 都 符合 DTD 的 规则 。 


6.4 XML Schema 


XML Schema 的 作用 与 DTD 一 样 , 都 是 用 于 定义 XML 文档 结构 , 并 用 于 验证 XML 
文档 。 但 XML Schema 的 功能 比 DTD 要 强大 得 多 ， 相 应 地 也 比 DTD 复杂 得 多 。XML 
Schema 的 内 容 非 常 庞大 ， 详 细 地 讲解 XML Schema 的 内 容 已 经 超过 了 本 书 的 范围 ， 本 
节 就 XML Schema 基本 的 内 容 进行 介绍 .XML Schema 的 标准 稍 显 大 了 一 些 ,如 果 对 XML 
文件 的 约束 只 限于 文件 的 标签 和 属性 结构 ， 而 不 涉及 文本 的 具体 内 容 ， 那 么 DTD 就 足 
够 了 ， 它 能 够 完成 XML Schema 的 大 部 分 功能 ， 简 单 而 且 兼 容 性 很 好 。 

模式 的 目的 是 为 了 约束 XML 文件 。 正 如 前 面 所 述 ，XML 元 素 的 内 容 可 以 由 文本 数 
据 和 子 元 素 组 成 ,模式 就 是 为 了 限制 元 素 应 当 有 怎样 的 文本 内 容 以 及 可 以 有 哪些 子 元 素 。 
6.3 节 讲 解 了 DTD 文件 ， 并 介绍 了 怎样 使 用 DTD 文件 来 约束 XML 文档 。 可 以 将 DTD 
文件 看 成 XML 文档 的 一 种 模式 ,一 个 和 DTD 关联 的 有 效 的 XML 文档 必须 遵循 该 模式 。 
但 是 ，DTD 文件 有 些 不 足 之 处 。 例 如 ， 当 将 标记 约束 为 “#PCDATA” 时 ， 仅 限制 了 该 
标签 只 能 有 文本 数据 ， 却 不 能 限制 文本 数据 的 实际 意义 ， 又 如 ， 不 能 强制 限制 文本 内 容 
是 浮 点 数 或 是 日 期 形式 的 数据 。 
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在 计算 机 软件 中 ，Schema 这 个 词 在 不 同 的 应 用 中 有 不 同 的 含义 ， 可 以 翻译 为 架构 、 
结构 、 规 则 、 模 式 等 。 在 XML P, Schema 指 的 是 定义 和 描述 XML 文档 的 规则 ， 可 翻 
译 为 模式 ， 在 本 书 中 一 律 仍然 使 用 英文 原文 XML Schema. 

W3C 于 1998 年 开始 制定 XML Schema 标准 ，2001 年 5 月 2 日 正式 发 布 了 XML 
Schema 1.0 的 第 一 版 。2004 年 10 月 28 日 ，W3C 发 布 了 XML Schema 1.0 的 第 二 版 ， 该 
版 本 修正 了 第 一 版 中 的 一 些 错误 。 本 节 依 据 的 是 XML Schema 1.0 的 第 二 版 。 

XML Schema 1.0 推荐 标准 包括 如 下 三 部 分 。 


1. XML Schema Part 0: Primer (Second Edition) 


这 一 部 分 是 XML Schema 的 非 标准 文档 , 它 对 XML Schema 的 功能 提供 了 一 个 让 人 
容易 理解 的 描述 ， 并 给 出 了 大 量 的 示例 和 说 明 ， 主 要 目的 是 帮助 开发 者 快速 掌握 XML 
Schema 语言 来 创建 XML Schema 。 该 部 分 文档 的 网 址 是 : http:// www.w3.org/TR/ 
хтіѕсһета-0/. 


2. XML Schema Part 1: Structures (Second Edition) 


这 一 部 分 详 述 了 XML Schema 定义 语言 (XML Schema Definition Language, XSDL), 
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描述 了 XSDL 中 用 于 定义 XML 文档 结构 和 约束 XML 文档 内 容 的 大 部 分 组 件 。 该 部 分 
规范 依赖 于 XML Schema Рап 2: Data types, 该 部 分 文档 的 网 址 是 : http://www.w3.org/TR/ 
xmlschema-1/。 


3. XML Schema Part 2: Data types (Second Edition) 


这 一 部 分 定义 了 一 个 类 型 系统 ， 描 述 了 内 置 的 数据 类 型 和 可 用 于 限制 它们 的 
(facet)。 这 部 分 是 单独 的 文档 ， 其 他 规范 也 可 以 使 用 它 ， 而 不 需要 包含 所 有 的 XML 
Schema。 该 部 分 文档 的 网 址 是 : http://www.w3.org/TR/xmlschema-2/。 

XML Schema 模式 不 仅 能 实现 DTD 的 大 部 分 功能 ， 而 且 能 指定 元 素 内 容 的 “数据 类 
型 ” 但 是 XML Schema 模式 也 不 是 万 能 的 , XML Schema 模式 的 出 现 并 不 意味 着 抛弃 了 
ртр. DTD 可 以 实现 XML Schema 模式 不 能 实现 的 功能 ， 而 且 较 XML Schema 模式 而 
言 ， 具 有 广泛 的 解析 器 支持 。 

DTD 非常 适合 下 列 情形 。 

а 文件 是 叙述 性 的 ， 并 有 混合 内 容 ; 

О 需要 约束 元 素 之 间 的 关系 ,特别 是 子 元 素 的 顺序 关系 ， 而 不 是 元 素 本 身 的 文本 

内 容 ; 

口 需要 使 用 实体 ; 

口 XML 文件 的 使 用 者 对 使 用 的 DTD 达成 一 致 。 

而 XML Schema 则 非常 适合 下 列 情形 。 

О 需要 定义 数据 类 型 ， 以 便 约 束 元 素 的 文本 内 容 内 部 结构 ， 例 如 ， 约 束 元 素 Last 

的 内 容 是 一 个 正 的 浮 点 数 ; 

а 元 素 的 子 元 素 的 顺序 并 不 重要 ， 重 要 的 是 其 数量 ; 

а 元 素 约束 不 限于 父子 关系 ， 需 要 考虑 祖先 及 子孙 管理 ; 

а ”跨越 多 个 文件 ， 命 名 空间 前 缓 不一致 。 

XML Schema 文档 采用 XML 语法 ,因此 XML 的 语法 规则 和 命名 约束 也 适用 于 XML 
Schema。 实 际 上 ， 可 以 把 XML Schema 看 成 XML 定义 的 一 种 应 用 。 使 用 XSDL (XML 
Schema Definition Language, XML 模式 定义 语言 ) 编写 的 XML 文档 , 称 为 XML Schema 
文档 。XML Schema 文档 以 schema 元 素 作 为 根 元 素 ， 文 件 的 扩展 名 为 “.xsd”。 

下 面 来 看 一 个 最 简单 的 Schema 定义 文档 ， 如 例 6.9 所 示 。 


[ 例 6.9] first.xsd 


<?xml version = "1.0"2> 
<xsd:schema xmlns:xsd = "http://www.w3.org/2001/XMLSchema"> 
<xsd:element name = "title" type = "xsd:string"/> 


</xsd:schema> 


对 例 6.9 的 说 明 如 下 。 

XML Schema 文档 本 身 也 是 XML 文档 ， 因 此 以 XML 声明 开始 。 

XML Schema 文档 以 xs:schema 作为 文档 根 元 素 ， 标 志 着 XML Schema 定义 内 容 的 
开始 。XSDL 中 的 元 素 都 在 http://www.w3.org/ 2001/XMLSchema 命名 空间 中 ， 因 此 必须 


在 根 元 素 上 声明 这 个 命名 空间 ， 并 指定 命名 空间 的 前 级 (通常 是 xs 或 者 xsd)， 例 6.9 中 
指定 的 前 缀 为 xsd。 

使 用 XSDL 中 的 xsd:element 元 素来 声明 一 个 在 XML 文档 中 使 用 的 元 素 ,属性 name 
指定 元 素 的 名 字 ， 属 性 type 指定 元 素 的 类 型 ， 即 指定 元 素 内 容 的 类 型 。 在 例 6.9 中 ， 使 
用 xsd:element 元 素 声明 了 title 元 素 (пате = "title")， 该 元 素 的 类 型 为 字符 串 〈type = 
"xsd:string" )。 

一 个 符合 例 6.9 所 示 的 XML Schema 定义 的 XML 文档 如 例 6.10 所 示 。 


[ 例 6.10] titlexml 


<?xml version = "1.0" encoding = "UTF-8" 2> 


<title>Java 面向 对 象 程序 设计 </title> 


那么 如 何 使 用 例 6.9 制定 的 XML Schema 文件 来 对 例 6.10 中 的 XML 文档 进行 约束 
呢 ? 使 用 例 6.9 的 XML Schema 文件 进行 约束 的 XML 文档 如 示例 6.11 所 示 。 


[ 例 6.11] 修改 后 的 title xml 


<?xml version = "1.0" encoding = "UTF-8" ?> 
<title xmlns:xsi = "http://www.w3.org/2001/XMLSchema-instance" 
xsi:noNamespaceSchemaLocation = "first.xsd"> 
Јама 面向 对 象 程序 设计 
</title> 


例 6.11 中 ， 在 根 元 素 title 的 开始 标签 处 ， 声 明了 URI 为 “http://www.w3.org/2001/ 
XMLSchema-instance” 的 命名 空间 并 使 用 前 级 xsi 表示 该 命名 空间 。 随 后 使 用 该 命名 空 
间 中 的 noNamespaceSchemaLocation 属性 来 指定 当前 XML 文档 的 不 包含 命名 空间 的 
XML Schema 文件 的 URL， 例 6.11 中 为 “firstxsd”， 这 意味 着 这 个 XML Schema 文件 

(first.xsd) 和 例 6.11 的 XML 文件 在 同一 目录 下 。 


元 素 是 创建 XML 文档 的 主要 构建 材料 。 在 XML Schema 中 ， 通 过 使 用 <element> 来 
声明 元 素 。 元 素 声明 用 于 给 元 素 指 定 元 素 的 名 称 、 内 容 和 数据 类 型 等 属性 。 在 XSDL 中 ， 
元 素 声 明 可 以 是 全 局 的 ， 也 可 以 是 局 部 的 。 

1. 元 素 的 声明 语法 

在 XML Schema 中 必须 定义 有 且 仅 有 一 个 schema 根 元 素 。 根 元 素 不 但 表明 了 文档 
类 型 ， 而 且 包 括 XML Schema 模式 命名 空间 的 定义 ， 以 及 其 他 命名 空间 的 定义 、 版 本 信 
息 、 语 言 信息 和 其 他 一 些 属性 ， 定 义 如 下 。 

<?xml version = "1.0" encoding = "UTF-8" 2> 


<xsd:schema name = "mySchema" 
xmlns:xsd = "http://www.w3.org/2001/XMLSchema" > 
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其 中 ，name 属性 指定 Schema 的 名 称 ， 也 可 以 不 使 用 。xmlns 指定 了 所 属 的 命名 空 
间 ， 紧 跟 在 后 面 的 xsd 则 是 该 命名 空间 的 名 称 ， 命 名 空间 “http://www.w3.org/2001/ 
XMLSchema” 被 映射 到 了 xsd 前 缀 。 

XML Schema 中 的 元 素 是 利用 element 标签 来 声明 的 ， 其 中 ，name 属性 用 来 定义 元 
素 的 名 称 ; type 属性 用 来 定义 元 素 的 数据 类 型 ， 在 这 里 可 以 是 XML Schema 中 的 内 置 数 
据 类 型 或 其 他 类 型 ， 具 体 定义 如 下 。 


其 中 ，name 是 元 素 类 型 的 名 称 ， 必 须 以 字母 或 下 画 线 开头 ， 而 且 只 能 包含 字母 、 数 
字 、 下 画 线 、 连 接 符 和 句点 。type 属性 是 必需 的 ， 说 明 该 元 素 的 数据 类 型 。 例 6.11 定义 
了 一 个 全 局 元 素 声明 title， 其 数据 类 型 为 简单 字符 串 类 型 。 

在 元 素 的 定义 中 还 有 两 个 属性 : minOccurs 和 maxOccurs。 其 中 ，minOccurs 属性 
定义 了 该 元 素 在 父 元 素 中 出 现 的 最 少 次 数 〈 默 认为 1， 值 为 大 于 等 于 0 的 整数 ); 
maxOccurs 属性 定义 了 该 元 素 在 父 元 素 中 出 现 的 最 多 次 数 〈 默 认为 1， 值 为 大 于 等 于 
0 的 整数 )。maxOccurs 属性 的 值 可 以 设置 为 nbounded， 表 示 对 元 素 出 现 的 最 多 次 数 
没有 限制 。 


上 述 代码 中 , 表示 元 素 author 的 数据 类 型 为 string, 出 现 的 次 数 最 少 为 0( 就 是 可 选 )， 
最 多 次 数 则 没有 限制 。 

一 般 来 说 ， 如 果 元 素 声 明 出 现在 XML Schema 文档 的 顶级 结构 中 ， 也 就 是 说 ， 它 的 
父 元 素 是 schema， 那 么 这 些 元 素 为 全 局 元 素 。 反 之 ， 局 部 元 素 声 明 只 出 现在 复杂 类 型 定 
义 内 部 ， 局 部 元 素 声 明 只 在 该 类 型 定义 中 使 用 ， 而 不 能 被 其 他 复杂 类 型 引用 或 在 替换 组 
中 使 用 。 不 同 的 复杂 类 型 可 以 有 相同 元 素 名 称 的 局 部 元 素 。 

例 6.12 中 的 XML 文档 ， 表 示 有 关 书 的 信息 。 


[ 例 6.12] book.xml 


用 于 约束 该 XML 文档 的 XML Schema 如 例 6.13 所 示 。 


[Ü] 6.13] book xsd 


<xsd:complexType> 用 于 声明 一 个 复杂 类 型 的 元 素 。 所 谓 复杂 类 型 的 元 素 是 指 可 以 拥 
有 子 元 素 或 属性 的 元 素 。 使 用 <xsd:element> 只 能 声明 简单 类 型 的 元 素 ， 简 单 类 型 的 元 素 


既 不 能 包含 子 元 素 ， 也 不 能 具有 任何 属性 。 
例 6.13 的 XML Schema 中 ， 元 素 声明 的 撕 套 层次 较 深 。 对 于 例 6.12 这 种 非常 简单 


的 XML 文档 ， 其 XML Schema 已 经 有 三 层 的 <xsd:element> 典 套 ， 而 且 被 包含 的 元 素 是 
在 被 包含 的 地 方 声明 ， 给 XML Schema 的 理解 增加 了 麻烦 ， 而 且 如 果 一 个 元 素 在 文档 中 
可 能 多 次 定义 。 为 了 简化 XML Schema 的 定义 ， 可 以 使 用 引用 。 


2. 元 素 的 引用 

引用 是 利用 element 标签 的 ref 属性 来 实现 的 。 在 定义 XML Schema БЇ, 可 以 将 经 常 
使 用 的 元 素 定义 为 根 元 素 的 子 元 素 ， 即 全 局 元 素 ， 这 样 可 以 在 文档 的 任何 地 方 引用 它 。 
因此 ， 可 以 在 例 6.13 中 的 XML Schema 中 增加 引用 ， 增 加 之 后 见 例 6.14。 


Шш ү, 


NX 


[ 例 6.14] book ref.xsd 


在 例 6.14 定义 的 XML Schema 中 ， 首 先 在 schema 元 素 中 定义 了 几 种 简单 类 型 的 全 
局 元 素 , 其 元 素 名 称 分 别 是 title、author、isbn、press 和 price。 数 据 类 型 除 price 为 double 
类 型 之 外 均 为 string 类 型 。 而 后 在 元 素 名 称 为 book 的 复杂 类 型 声明 中 引用 了 上 述 5 种 简 
单 类 型 的 元 素 。 

在 XML Schema 中 还 可 以 为 某 个 声明 的 元 素 起 别名 ， 这 主要 是 利用 element 元 素 的 
substitutionGroup 属性 来 实现 的 。 例 如 ， 在 例 6.15 的 XML 文档 中 ， 这 本 书 有 三 名 作者 ， 
其 中 前 两 个 是 英文 原作 者 ， 第 三 个 是 中 文 版 的 译 者 。 


[ 例 6.15] book2 xml 


如 果 使 元 素 <translator> 具 有 和 <author> 相 同 的 含义 ， 则 可 以 定义 如 例 6.16 所 示 的 
XML Schema. 


[Ü] 6.16] book sub.xsd 


属性 声明 用 于 定义 属性 ， 并 使 之 与 某 个 特定 的 元 素 相关 联 。 在 XSDL 中 ， 实 现 的 方 
法 是 使 用 attribute 标签。 在 XML Schema 文档 中 可 以 按照 声明 元 素 的 方法 来 声明 属性 ， 
但 受 限制 的 程度 较 高 ， 只 能 是 简单 类 型 ， 只 能 包含 文本 ， 且 没有 子 属性 。 属 性 是 没有 顺 
序 的 ， 而 元 素 则 是 有 顺序 的 。 使 用 属性 十 分 简练 ， 一 般 情况 下 元 素 的 功能 比 属性 强大 ， 
但 在 某 些 场合 ， 属 性 是 非常 有 用 的 。 关 于 如 何 使 用 元 素 和 属性 ， 请 参考 6.2 节 。 


第 
6 


L 


> ЛИХ 


1. 属性 的 声明 语法 
定义 属性 的 方法 如 下 。 


上 述 语句 定义 了 一 个 名 称 为 isbn 的 属性 ， 数 据 类 型 是 string, 

属性 也 分 为 全 局 属性 和 局 部 属性 。 全 局 声明 的 属性 是 schema 元 素 的 子 元 素 , 在 整个 
XML Schema 文档 中 必须 是 唯一 的 。 在 复杂 类 型 的 元 素 声明 中 可 以 使 用 ref 属性 引用 已 经 
声明 的 指定 名 称 的 属性 。 局 部 属性 声明 只 出 现在 复杂 类 型 定义 中 ， 仅 能 在 声明 属性 的 类 
型 中 使 用 ， 而 不 能 被 其 他 类 型 重用 。 例 6.17 显示 了 属性 isbn 的 全 局 声明 ， 然 后 定义 了 复 
杂 类 型 ， 使 用 ref 属性 通过 名 称 来 引用 这 个 属性 。 


[ 例 6.17] book isbn.xsd 


需要 特别 注意 的 是 ， 在 例 6.17 的 XML Schema 定义 中 ， 在 定义 名 称 为 book 的 复杂 
类 型 的 元 素 时 ， 该 复杂 元 素 既 有 多 个 子 元 素 ， 同 时 又 具有 名 称 为 isbn 的 属性 ， 此 时 需要 
先 定义 其 子 元 素 信息 ， 最 后 定义 其 属性 信息 ， 这 是 由 XML Schema 标准 定义 的 。 


符合 例 6.17 中 XML Schema 定义 的 XML 文档 如 例 6.18 所 示 。 
[| 6.18] book isbn xml 


所 有 的 属性 声明 都 把 属性 指定 为 某 种 简单 类 型 。 所 有 的 属性 都 必须 是 简单 类 型 而 不 
是 复杂 类 型 ， 因 为 它们 本 身 不 能 有 子 元 素 ， 也 不 能 有 属性 。 


2. 属性 值 的 约束 


属性 声明 可 以 有 以 下 三 种 方式 。 
(1) 在 属性 声明 时 使 用 type 属性 指定 其 数据 类 型 ， 属 性 的 数据 类 型 可 以 是 XML 
Schema 的 内 置 类 型 ， 也 可 以 是 用 户 自 定义 类 型 。 
(2) 通过 指定 simpleType 子 属性 来 指定 匿名 类 型 。 
G) 既 没有 type 属性 ， 又 没有 simpleType 子 属性 ， 从 而 不 指定 特定 类 型 。 在 这 
种 情况 下 , 属性 的 类 型 为 anySimpleType, 它 可 以 拥有 任何 值 , 只 要 是 结构 良好 的 XML 
文档 。 
如 果 要 指定 isbn 的 属性 值 必须 是 13 位 ， 则 可 以 通过 上 述 三 种 方式 的 第 二 种 ， 对 已 
有 的 string 类 型 进行 长 度 的 限制 ， 新 的 XML Schema 如 例 6.19 所 示 。 


[ 例 6.19] book isbn length.xsd 
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如 果 XML 文档 中 isbn 属性 的 长 度 不 是 13 位 ， 使 用 XMLSpy 验证 有 效 性 ， 得 到 的 
错误 信息 如 图 6.4 所 示 。 


ја те @ iso 的 ) TURAMA” EER 。 
| fm | Schemes | 直观 | 浏览 器 | 
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对 于 属性 来 说 ， 也 可 以 通过 设置 默认 值 和 固定 值 的 方式 增加 未 出 现 的 属性 来 扩充 实 
例 。 定 义 和 扩 充 的 方式 与 元 素 一 致 .在 XSDL 中 , 默认 值 和 固定 值 分 别 通过 default 和 fixed 
属性 设置 ， 这 两 个 属性 只 能 出 现 其 中 之 一 ， 它 们 是 互 斥 的 。 

如 果 属 性 在 元 素 中 没有 声明 ， 则 该 属性 的 默认 值 将 会 被 十 入 ;如果 属 性 声明 了 ， 且 
包含 给 定 值 ， 则 该 属性 将 保持 该 值 不 变 。 下 面 的 例子 显示 了 book 元 素 的 声明 , 它 包含 一 
个 属性 amount， 该 属性 被 指定 了 默认 值 。 


XML 文件 可 以 作为 应 用 程序 的 数据 来 源 , 因此 从 XML 文件 中 提取 所 需要 的 数据 就 
变 得 十 分 关键 。 另 一 方面 ， 有 些 时 候 也 需要 把 数据 写 到 XML 文件 中 ， 而 这 些 操作 也 需 
要 借助 XML 解析 器 来 进行 。XML 解析 器 是 XML 和 应 用 程序 之 间 的 一 个 中 介 程序 ， 目 
的 是 为 应 用 程序 从 XML 文件 中 解析 出 所 需要 的 数据 。XML 解析 器 有 两 种 类 型 : 基于 
DOM 的 解析 器 和 基于 SAX 的 解析 器 。 在 前 几 节 的 示例 程序 中 ， 曾 多 次 用 到 了 DOM 解 
析 器 ， 本 节 将 简单 介绍 基于 DOM 的 解析 器 。 

基于 DOM 的 解析 器 称 为 DOM 解析 器 。DOM 解析 器 解析 XML 文件 的 最 大 特点 是 
把 整个 XML 文件 加 载 到 内 存 中 , 在 内 存 中 形成 一 个 与 XML 文件 树 状 结构 相对 应 的 节点 
树 ， 然 后 再 依据 节点 的 父子 关系 访问 数据 。 通 过 DOM 解析 器 处 理 XML 文件 的 速度 较 
快 , 但 也 比较 消耗 系统 的 资源 (主要 是 内 存 )， 比 较 适合 结构 复杂 但 内 存 占用 量 相对 较 小 
的 XML 文件 。 
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DOM 是 Document Object Model (文档 对 象 模型 ) 的 缩写 和 XML 一 样 , 也 是 W3C 
制定 的 一 套 规范 。 根 据 DOM 规范 (http://www.w3.org/ DOM/)，DOM 是 一 种 与 浏览 器 、 
平台 、 编 程 语言 无 关 的 接口 。 各 种 编程 语言 可 以 按照 DOM 规范 去 实现 这 些 接 口 ， 并 给 
出 解析 文件 的 解析 器 实现 。DOM 规范 中 所 指 的 文件 相当 广泛 ， 其 中 包括 XML 文件 和 
HTML 文件 。 

W3C 在 1998 年 8 月 通过 了 DOM 的 第 一 个 版 本 (Level 1), Level 1 包括 对 XML 1.0 
和 HTML 的 支持 ， 每 种 HTML 元 素 可 以 被 表示 为 一 个 接口 。Level 1 还 包括 用 于 添加 、 编 
辑 、 移 动 和 读 取 节 点 中 包含 的 信息 的 方法 等 ， 但 是 ， 没 有 包括 对 XML 命名 空间 的 支持 。 

2000 年 3 月 ，W3C 公布 了 DOM 的 第 二 个 版 本 (Level 2)，Level 2 包括 更 广泛 的 
МЗС 推荐 技术 ， 比 如 级 联 样式 单 CCSS) 和 XML 命名 空间 。 

本 节 使 用 的 是 DOM 的 第 三 个 版 本 (Level 3)，Level 3 包括 对 创建 Document 对 象 
的 更 好 支持 和 增强 的 命名 空间 支持 ， 以 及 用 于 处 理 文档 加 载 、 保 存 、 验 证 、XPath 等 新 
模块 。 

本 节 主 要 介绍 DOM 解析 器 ， 该 解析 器 是 支持 Level 3 规范 的 解析 器 。 在 认识 DOM 
解析 器 之 前 ， 首 先 要 区 分 РОМ 解析 器 和 另外 两 种 解析 器 (JDOM 和 DOM4J)。 

其 中 ，DOM 使 用 与 平台 和 编程 语言 无 关 的 方式 表示 XML 文档 的 官方 W3C 标准 。 

ЛОМ 是 Јама 特定 文档 模型 ， 它 简化 了 与 XML 的 交互 ， 并 且 解 析 速 度 比 DOM 更 快 。 

JDOM 5 DOM 主要 有 两 方面 不 同 : 第 一 ，JDOM 仅 使 用 具体 类 而 不 使 用 接口 ， 这 在 某 
些 方 面 简化 了 API， 但 是 也 限制 了 它 的 灵活 性 ; 第 二 ，API 大 量 使 用 了 Java Collections 
类 ， 这 更 加 方便 了 那些 熟悉 这 些 类 的 Java 开发 者 的 使 用 。JDOM 自身 不 包含 解析 器 ， 通 
常 使 用 SAX2 解析 器 来 解析 和 验证 输入 的 XML 文档 。 另 一 种 解析 器 DOM4J 最 初 是 
JDOM 的 一 种 智能 分 支 , 它 合 并 了 许多 超出 基本 XML 文档 表示 的 功能 ,包括 继承 的 XPath 
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支持 、XML Schema 的 支持 以 及 用 于 大 文档 或 文档 流 的 基于 事件 的 处 理 ， 还 提供 了 构建 
文档 表示 的 选项 ， 通 过 DOM4J АРІ 和 标准 DOM 接口 ， 还 具有 并 行 访问 功能 。DOM4J 
大 量 使 用 了 Java API 中 的 Collections 类 , 虽然 为 此 DOM4J 付出 了 更 复杂 的 API 的 代价 ， 
但 是 具有 了 比 JDOM 大 得 多 的 灵活 性 。 

JDK 1.6 中 包含 DOM 解 析 器 解析 XML 文件 所 需要 的 API(Java АРГ For XML Parsing, 
ЈАХР), ЈАХР 实现 了 DOM 规范 的 Java 语言 绑 定 。 在 JAXP 中 ，DOM 解析 器 是 一 个 
DocumentBuilder 类 的 实例 。 下 面 介绍 如 何 创建 一 个 РОМ 解析 器 ， 主 要 步骤 如 下 。 

(1) 创建 一 个 解析 工厂 ， 利 用 这 个 工厂 来 获得 一 个 具体 的 解析 器 对 象 ， 代 码 如 下 。 


DocumentBuilderFactory factory = null; 


factory = DocumentBuilderFactory.newInstance(); 


使 用 DocumentBuilderFactory 的 目的 是 创建 与 具体 解析 器 无 关 的 程序 ， 当 
Document BuilderFactory 类 的 静态 方法 newInstance0 被 调用 时 ， 解 析 工 厂 将 根据 系 
统 变 量 的 值 来 决定 具体 使 用 哪 一 种 解析 器 。 
(2) 通过 factory 对 象 调用 它 的 静态 方法 newDocumentBuilder() 以 获得 一 个 
DocumentBuilder 对 象 ， 这 个 对 象 就 是 DOM 解析 器 ， 代 码 如 下 。 


DocumentBuilder builder = null; 
builder = factory.newDocumentBuilder (); 


DocumentBuilderFactory 类 和 DocumentBuilder 类 都 包含 在 javax.xml.parsers 包 中 。 
当 获 得 了 一 个 DocumentBuilder 类 的 对 象 (DOM 解 析 器 ) 之 后 ,就 可 以 调用 该 对 象 的 public 
Document parse(File file) 方 法 来 解析 文件 。 解析 的 内 容 以 对 象 的 形式 返回 , 该 对 象 是 实现 
了 Document 接口 的 一 个 实例 ， 称 为 Document 实例 对 象 ， 代 码 如 下 。 


Document document = null; 
document = builder.parse (new File (XML FILE РАТН)); 


Document 接口 在 org.w3c.dom 包 中 。 如 果 想 让 创建 的 DOM 解析 器 支持 名 称 空间 ， 
则 需要 调用 factory 对 象 的 setNamespaceAware(boolean b) 方 法 ， 代 码 如 下 。 


factory.setNamespaceAware (true); 


如 果 要 通过 解析 器 检验 XML 文档 是 否 符 合 相 应 的 DTD 定义 ， 则 需要 调用 factory 
对 象 的 setValidation(boolean b) 方 法 ， 代 码 如 下 。 


factory.setValidation (true); 


获得 的 Document 实例 对 象 以 树 状 结构 对 应 XML 文件 的 各 个 标签 , 应 用 程序 只 需要 
分 析 内 存 中 的 Document 对 象 就 可 以 获得 XML 文件 中 的 数据 。 

builder 对 象 除 了 可 以 调用 public Document parse(File file) 方 法 进行 解析 文件 外 , 还 可 
以 调用 如 下 两 个 方法 进行 解析 文件 。 

public Document parse (InputStream in); 

public Document parse (String uri); 


其 中 ，public Document parse(Filer file) 方 法 可 以 接收 一 个 可 被 解析 的 参数 指定 的 
XML 文件 ， 代 码 如 下 。 


File xmlFile = new File ("D:NN01.xml"); 
Document document = builder.parse (xmlFile); 


Tij public Document parse(InputStream in) 方 法 可 以 接受 可 被 解析 的 XML 文件 输入 流 ， 
代码 如 下 。 


FileInputStream in = new FileInputStream("D:NN01.xml"); 
Document document = builder.parse(in); 


public Document parse(String URD) 方 法 可 以 接受 一 个 由 URI 参数 指定 的 一 个 有 效 资 
源 ， 代 码 如 下 。 


String uri = про хит"; 
Document document = builder.parse(uri); 


Node 接口 定义 了 一 些 基 本 的 方法 和 属性 ， 利 用 这 些 方法 可 以 实现 对 XML 文档 的 遍 
历 ， 同 时 ， 通 过 属性 还 可 以 获得 节点 名 称 或 节点 类 型 等 信息 。DOM 规范 中 很 多 接口 都 
是 从 Node 接口 继承 而 来 的 ， 如 Document, Element, Аш, CDATASection, Entity 等 。 
在 DOM 规范 中 ， 可 以 把 XML 文件 的 每 一 个 标签 、 属 性 、 注 释 、 文 本 内 容 等 都 视 为 节 
点 。 一 个 Node 对 象 代表 了 某 种 类 型 的 节点 ， 这 些 节 点 都 是 从 Node 继承 而 来 的 ，Node 
接口 定义 了 所 有 类 型 的 节点 都 具有 的 属性 和 方法 。 

在 DOM 规范 中 ， 不 同类 型 的 节点 采用 不 同 的 整数 加 以 区 分 。 为 了 保证 在 未 来 能 
对 节点 类 型 进行 扩充 ，W3C 保留 了 1 一 200 之 间 的 整数 ， 以 作为 不 同 节点 类 型 的 定义 值 ， 
具体 对 应 关系 如 表 6.4 所 示 。 
2:1: 表 6.4 _ XML 的 节点 类 型 


节点 类 型 整数 表示 常量 
标签 (元 素 ) 节点 ，Element ELEMENT_NODE 
属性 节点 ，Attr | _ | ATTRIBUTE МОРЕ 
文本 节点 ，Text 3 TEXT NODE 
CDATA 节点 ，CDATASection 4 CDATA SECTION МОРЕ 
实体 引用 节点 ，EntityReference 5 ЕМТІТҮ REFERENCE МОРЕ 
实体 节点 ，Entity 6 ENTITY NODE 
处 理 指令 节点 ，ProcessingInstruction 7 PROCESSING INSTRUCTION NODE 
Comment 节点 COMMENT NODE 
Document 节点 | 9° | pocuMENT море 
文档 类 型 节点 ，DocumentType | 10 “| pocUMENT ТҮРЕ МОРЕ 
文档 片段 节点 ，DocumentFragment DOCUMENT FRAGMENT NODE 
Notation 节点 NOTATION МОРЕ 


常用 节点 的 父子 关系 如 图 6.5 所 示 。 
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Document 节点 


DocumentType 节 点 | | Element 节 点 


Element 节 点 Text 节 点 CDATASection 节 点 | 


”图 6.5 ,常用 节点 的 父子 关系 


点 的 类 型 可 以 通过 下 列 方法 来 获取 。 


short getNodeType () 


Node 接口 中 包含 的 常用 方法 如 表 6.5 所 示 。 
表 6.5 Node 接口 中 包含 的 方法 
5 Ж 返回 类 型 
ге ЧодеМате() String 获取 当前 节点 的 名 称 
getNodeValue0 获取 当前 节点 的 什 


ЖЕЗ RERE ЗЕЛИНА ИЕ 


程 


setNodeValue(String) void 设置 当前 节点 的 值 

getNodeType0 获取 当前 节点 的 类 型 ， 参 见 表 6.1 

getChildNodes0) NodeList 获取 当前 节点 的 所 有 子 节点 ， 返 回 NodeList 对 象 
getFirstChildO [Node 。 “| 获取 当前 节点 的 第 一 个 子 节点 

getLastChildO Node 获取 当前 节点 的 最 后 一 个 子 节点 

getpreviousSibling0 [Node 。 | 获取 当前 节点 的 前 一 个 兄弟 节点 

getNextSibling() Node 获取 当前 节点 的 后 一 个 兄弟 节点 

getParentNode0 [Node 。 “| 获取 当前 节点 的 父 节 点 

getAttributes() NamedNodeMap | 获取 当前 节点 的 所 有 属性 ， 返 回 NamedNodeMap 对 象 
appendChild(Node) [моде | 在 当前 节点 的 所 有 子 节点 之 后 添加 参数 指定 的 新 节点 
hasChildNodes() boolean 判断 当前 节点 是 否 有 子 节点 


把 参数 2 指定 的 节点 插入 到 当前 节点 的 子 节点 〈 参 数 1) 
之 前 


TemoveChild(Node) Node 从 当前 节点 的 子 节点 中 删除 参数 指定 的 节点 


insertBefore(Node, Node) | Node 


TeplaceChild(Node, Node) | Node 使 用 参数 2 指定 的 节点 蔡 换 当前 节点 的 子 节点 (参数 1) 
getNamespaceURIO String 获取 命名 空间 的 URI 


hasAttributes() boolean 判断 当前 节点 是 否 有 属性 
getTextContent() String 获取 当前 的 文本 内 容 


isSameNode(Node) boolean 判断 当前 节点 与 参数 指定 的 节点 是 否 是 同一 个 节点 
isEqualNode(Node) boolean 判断 当前 节点 与 参数 指定 的 节点 是 否 相等 


NodeList 接口 提供 了 对 节点 集合 的 抽象 定义 , 用 于 表示 有 顺序 的 一 组 节点 。 NodeList 
中 的 每 一 个 节点 都 可 以 通过 索引 来 访问 , 索引 值 0 表示 集合 中 的 第 一 个 节点 。Node 接 
的 getChildNodes() 方 法 ， 返 回 类 型 即 为 NodeList。NodeList 接口 有 两 个 常用 的 方法 ， 如 
表 6.6 所 示 。 
2:7 表 6.6 NodeList 接口 常用 的 方法 
返回 类 型 


getLength() Ú) 。 ”| 返回 NodeList 集合 中 节点 的 个 数 


[Node | 返回 NodeList 集合 中 参数 指定 的 节点 


如 前 所 述 ，DOM 解析 器 的 parse 方法 将 整个 被 解析 的 XML 文件 封装 成 一 个 
Document 节点 返回 , 如 图 6.1 所 示 。 应 用 程序 可 以 从 该 节点 的 子孙 节点 中 获取 整个 XML 
文件 中 数据 的 细节 。Document 节点 的 各 个 子 节点 具有 不 同 的 节点 类 型 ， 当 然 也 包括 
Document 节点 自身 ， 本 节 对 DOM 中 各 种 类 型 的 节点 进行 介绍 。 


1. Document 节点 


Document 节点 代表 了 整个 XML 文件 ，XML 文件 的 所 有 内 容 都 被 封装 在 一 个 
Document 节点 中 。Document 对 象 提供 了 对 文档 中 的 数据 进行 访问 的 入 口 ， 应 用 程序 可 
以 从 该 节点 的 子孙 节点 中 获得 整个 XML 文件 的 数据 。 

Document 类 型 节点 的 两 个 子 节点 的 类 型 分 别 是 DocumentType 和 Element。 
DocumentType 类 型 节点 对 于 XML 文件 所 关联 的 DTD 文件 , 通过 DocumentType 节点 的 
子孙 关系 可 以 分 析 并 获得 XML 文件 所 关联 的 DTD 文件 中 的 数据 。Element 类 型 节点 对 
应 XML 文件 的 标签 (元 素 ) 节点 ， 通 过 Element 节点 的 子孙 关系 可 以 获得 XML 文件 中 
的 数据 。Document 节点 常用 的 方法 如 表 6.7 所 示 。 


2:: R67 _ Document 节点 常用 的 方法 


方 法 返回 类 型 功 能 
getDocumentElement() 返回 当前 节点 的 Element 子 节点 ， 即 文档 根 元 素 
zetDoctype0 返回 当前 节点 的 DocumentType 子 节 点 


А 返回 一 个 NodeList 对 象 ， 该 对 象 由 参数 指定 的 节点 的 
getElementByTagname(String) Element 类 型 子孙 节点 组 成 


返回 一 个 NodeList 对 象 , 该 对 象 由 参数 2 指定 的 节点 
的 Element 类 型 子孙 节点 组 成 ， 该 节点 的 命名 空间 由 
参数 1 指定 


ве ЈетепВуТасМашем 
(String, String) 


NodeList 


| 返回 一 个 NodeList 对 象 ， 该 对 象 由 参数 指定 ID 的 节 
getElementById(String) Element 点 的 Element 类 型 的 子孙 节点 组 成 
getXmlEncoding() 返回 XML 文件 使 用 的 编码 


getInputEncoding() 返回 解析 时 所 使 用 的 编码 
getXmlStandalone() boolean 返回 XML 文件 声明 中 的 standalone 属性 的 值 
getXmlVersion() String 返回 XML 文件 声明 中 的 version 属性 的 值 
setDocumentURI(String) void 设置 DocumentURI 
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返回 类 型 


setXmlVersion(Strinag) void 设置 XML 的 版 本 

createElement(String) 创建 一 个 Element 节点 ， 节 点 名 称 由 参数 指定 
еы Ж 创建 一 个 Attr 节点 ， 节 点 名 称 由 参数 指定 ， 然 后 调用 

Sa isi setAttributeNode0 方 法 来 设置 其 属性 


createCDATASection(String) 
createTextNode(String) 


CDATASection | 创建 一 个 CDATASection 节点 
Text 创建 一 个 具有 指定 内 容 的 文本 节点 


下 面 通过 例 6.20 来 说 明 Document 节点 的 部 分 用 法 。 
[ 例 6.20] TestDocumentjava 


package cn.buu.edu.xmlparse; 
import javax.xml.parsers.DocumentBuilder; 
import javax.xml.parsers.DocumentBuilderFactory; 
import org.w3c.dom.Document; 
import org.w3c.dom.Element; 
import org.w3c.dom.Node; 
import org.w3c.dom.NodeList; 
public class TestDocument ( 
public static final String XML FILE = "D:\\books.xml"; 
public static void main(String[] args) { 
DocumentBuilderFactory factory = null; 
DocumentBuilder builder = null; 
Document document = null; 
Element root = null; 
String version = null; 
String encoding = null; 
boolean isstandalone = false; 
NodeList books = null; 
Node node = пи11; 
try { 
factory = DocumentBuilderFactory.newInstance();/ 
builder = factory.newDocumentBuilder(); 
document = builder.parse (XML FILE); 
version = document.getXmlVersion(); 
encoding = document .getXmlEncoding () ; 
isStandalone = document .getXmlStandalone (); 
root = document .getDocumentElement () ; 
System.out .println ("该 文件 的 版 本 为 ”+ version); 
System.out .println ("该 文件 的 编码 为 ”+ encoding); 
System.out .println ("该 文件 的 是 否 独立 为 " 
+ isStandalone); 


System.out .println ("该 文件 的 文档 根 元 素 为 " 


该 程序 运行 的 结果 如 图 6.6 所 示 。 


° 
Г ñ Ө Console 7: 加 Locai = 
J cterminated> TestDocument [Java Application] C\Program FilesJava\jre8\bin\javawexe (20181342 ТЕЕ1:50:20) 
O јехњинже.д 
该 文件 的 编码 为 UTF-8 
该 文件 的 是 否 奖 立 为 true 
该 文件 的 文档 根 元 素 为 books 
Book 1: 
Ле: Јама ужи 
authors: 
HER 
Jt 
A 


isbn:9787302489078 
press : 清华 大 学 出 版 社 


price:45.00 
Book 2: 
七 让 le :XML 技术 与 应 用 
authors: 
ж 
HER 


isbn:9787302284666 
press 清华 大 学 出 版 社 
ргісе:29.50 


СУ 图 6.6 Document 示例 程序 运行 结果 
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2. Element 节点 


Element 节点 是 Document 节点 的 最 重要 的 子 节 点 ， 因 为 被 解析 的 XML 文件 的 标签 
( 即 元 素 ) 对 应 着 这 种 类 型 的 节点 。 表 示 Element 节点 的 常量 为 NodeELEMENT ] NODE. 
一 个 节点 使 用 short getNodeType() 方法 返回 的 值 等 于 Node.ELEMENT_NODE， 那 么 该 
节点 就 是 Element 节点 。Element 节点 常用 的 方法 如 表 6.8 所 示 。 
21: R68 Element 节点 常用 的 方法 
ЛО 返回 类 型 功 能 
获取 Element 节点 的 标签 名 称 
String 获取 Element 节点 的 参数 指定 的 属性 名 称 的 属性 值 
使 用 参数 2, 设置 Element 节点 中 参数 1 指定 的 属性 名 
称 的 属性 值 
删除 Element 节点 中 参数 指定 的 属性 名 称 的 属性 
获取 Element 节点 中 参数 指定 的 属性 名 称 的 Attr 节点 


getTagName() 


getAttribute(String) 


void 


setAttribute(String, String) 


removeAttribute(String) 
getAttributeNode(String) 


setAttributeNode(Attr) [Аш 。 | 使 用 参数 设置 Element 节点 中 的 属性 
removeAttributeNode(Attr) 删除 Element 节点 中 参数 指定 的 属性 
Е z Element 节点 中 参数 指定 的 标签 名 称 的 Element 


参 4 = А 
кү — = 数 1 指定 的 命名 空间 、 参 数 2 指定 的 属性 名 称 


的 属性 值 
В З К 使 用 参数 3 设置 参数 1 指定 的 命名 空间 、 参 数 2 指定 
Бш id 
setAttributeNS(String, String, String) 的 属性 名 称 的 属性 值 
removeAttributeNS(String, String) “| void MEPA TAREE EE E REA 
的 属性 
5 : 返回 参数 1 指定 的 命名 空间 、 参 数 2 指定 的 属性 名 称 
getAttributeNodeNS(String, String) ПАЗИ 
setAttributeNodeNS(Attr) 使 用 参数 设置 Element 节点 中 的 参数 
getElementsByTagNameNS И 获取 Element 节点 中 参数 1 指定 的 命名 空间 、 参 数 2 
(String, String) 指定 的 标签 名 称 的 Element 集合 
hasAttribute(String) boolean | 判断 当前 Element 节点 是 否 具有 参数 指定 的 属性 


R HNM Element 节点 是 天 具有 参数 1 指定 的 命名 空 
hasAttributeNS(String, String)  jboolean | 后、 参数 2 指定 的 局 性 名 称 的 属性 


下 面 通过 例 6.21 来 说 明 Element 节点 的 部 分 用 法 。 


[ 例 6.21] TestElement.java 


package cn.buu.edu.xmlparse; 
import javax.xml.parsers.DocumentBuilder; 
import javax.xml.parsers.DocumentBuilderFactory; 


例 6.21 的 运行 结果 如 图 6.7 所 示 。 


ll р 


т 
ш 
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© Eclipse Neon Workspace - Java - 20180103 TestXMILParse/src/cn/ouu/edu/xmlparse/TestElementJava - Eclipse MW 
File Edit Refactor Source Navigate Search Project Run Window Help 


зошо лав 2 dip О-Ч%-:#Ө-:эЭс#-:Ф 4» mi ü; gë: >” Sl = СКЈ 


= Í Problems © Javadoc (© Declaration У Search © Console % ED logCat 
ls | <terminated> TestElement [Java Application] С\Ртосгат FilesJava\jre8\bin\avaw.exe (201841548 下 午 1:59:20) 


book 1: 


title: Javai AH REF RH 
authors: 
хі 
Б 


isbn:9787302489078 
press :清华 大 学 出 版 社 


рпісе:45.00 
book 2: 
七 ile :XML 技术 与 应 月 
authors: 
2 
孙 连 英 


isbn:9787302284666 
press :清华 大 学 出 版 社 
price:29.50 


67 _ „Element 示例 程序 运行 结果 


上 述 示例 程序 中 ， 判 断 node 类 型 的 代码 : 

if (node.getNodeType() == Моде.ЕЉЕМЕМТ МОРЕ) ( 

也 可 以 写成 如 下 形式 : 

if (node instanceof Element) { 

代码 element = (Element) node: 的 目的 是 进行 下 漳 造 型 ， 因 为 接口 Element 是 接口 
Node 的 子 接口 。 在 进行 下 渊 造型 之 前 , 需要 进行 类 型 的 判断 。 判 断 时 , 既 可 以 通过 node 
的 getNodeType0 方 法 的 返回 值 ， 也 可 以 通过 Java 语言 用 于 类 型 判断 的 关键 字 
instanceof。 


3. Text 节点 


格式 良好 的 XML 文件 的 非 空 标签 可 以 包含 子 标签 和 文本 内 容 。 在 DOM 规范 中 ， 
解析 器 使 用 Element 节点 封装 标签 ， 使 用 Text 节点 封装 标签 的 文本 内 容 ， 即 Element 节 
点 可 以 有 Element 子 节点 和 Text 节点 。 例 如 ， 对 于 下 列 内 容 : 


[ÜU 6.22] bookxml 


<?xml version = "1.0" encoding = "UTF-8" standalone = "yes" ?> 
<!-- 这 是 一 个 关于 书籍 信息 的 文档 --> 
<book> 

<title>Java 面向 对 象 程序 设计 </title > 


如 果 包 含 这 些 空白 字符 ， 那 么 该 XML 文档 的 树 状 结构 中 就 会 包含 这 些 空白 字符 ， 
这 些 空白 字符 和 title 等 4 个 Element 一 样 ， 是 文档 根 元 素 Stock 的 直接 子 节点 。 

表示 Text 节点 类 型 的 常量 是 Node.TEXT_NODE。 对 一 个 节点 调用 short getNodeType() 
方法 ， 如 果 返 回 值 为 Node.TEXT_NODE， 那 么 该 节点 就 是 Text 节点 。 对 于 Text 节点 ， 
调用 String getNodeName() 方法 返回 值 为 “#text”。 ТИ] 6.23 为 处 理 图 书 XML 文档 的 Java 
程序 ， 其 中 展示 了 Text 节点 的 部 分 方法 。 运 行 结果 如 图 6.8 所 示 。 

[ЇЙ] 6.23] TestText.java 


iow 
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= БЕЕН oee ЕНЕН s I ЕН 
|13 четппајед TestText [Java Application] CAProgram FlesVavaVre5Winyavaweme спваа ван FF22233) 


Element book 共有 11 个 于 节点 
第 1 个 喜 接 子 节点 ， Text 节 点 ， 长 度 为 2， 内容 为 


第 2 个 直接 子 节点 ，Element 节 点 ， 标 签名 称 为 title， 包 合 的 文本 内 容 为 JaVa 面 向 对 象 程序 设计 
第 3 个 直接 于 节点 ，TeXt 节 点 ， 长 度 为 2， 内 容 为 


第 4 个 直接 于 节点 ，Element 节 点 ， 标 签名 称 为 authors， 包含 的 文本 内 容 为 
author -> 孙 过 芮 包含 的 文本 内 容 为 


author -> 刘畅 包 言 的 文本 内 容 为 


author -> баата 
第 5 个 直接 于 节 志 ，TeXt 节 点 ， 长 度 为 2， 内 容 为 


第 6 个 直接 予 节点， Element 节 点 ， 标 签名 称 为 Sbn， 包含 的 文本 内 容 为 9787382489878 
第 7 个 直接 于 节点 ， TeXt 节 点 ， 长 度 为 2， 内 容 为 


第 8 个 直接 于 节点 ，Element 节 点 ， 标 签名 称 为 press， 包 含 的 文本 内 容 为 清华 大 学 出 版 社 
第 9 个 直接 子 节点 ， TeXt 节 点 ， 长 度 为 2， 内 容 为 


第 16 个 直接 子 节 点 ， ELement 节 点 ， 标 签名 称 为 price, 包含 的 文本 内 容 为 45 .60 
11 个 直接 子 节点 ，TeXt 节 点 ， 长 度 为 1， 内 容 为 


Л 868 016.23 的 运行 结果 


需要 注意 的 是 , 例 6.24 中 的 XML 文档 从 文档 根 元 素 book 开始 , 没有 包含 用 于 美观 
的 空白 ， 包 括 换行 和 制 表 符 。 运 行 结果 如 图 6.9 所 示 。 


[ 例 6.24] book.xml 


Ба АП O ooon 5 ШШ СЕСЕ -ELERE 


ЊЕ | четтипајед» Тайна аха Арржсаволу САРгодгат FAA tajina (201881848 F29 
Element book 共有 5 个 子 节点 
第 1 个 直接 子 节点 ，Element 节 点 ， 标 签名 称 为 title， 包 含 的 文本 内 容 为 Java 面 向 对 象 程序 设计 
第 2 个 直接 子 节点 ，Element 节 点 ， 标 签名 称 为 authors， 
author -> #4 
author -> зі 
author -> 2 
第 3 个 直接 于 节点 ，Element 节 点 ， 标 签名 称 为 iSbn， 包含 的 文本 内 容 为 9787382489878 
第 4 个 直接 子 节点 ，Element 节 点 ， 标 签名 称 为 press， 色 合 的 文本 内 容 为 清华 大 学 出 版 社 
第 5 个 直接 子 节 点 ， El]ement 节 点 ， 标 签名 称 为 price， 色 合 的 文本 内 容 为 45 .88 


69 _TestText 程序 运行 结果 


对 于 应 用 程序 而 言 ，Text 节点 是 比较 重要 的 节点 ， 因 为 Text 节点 中 包含 XML 标签 
中 的 文本 数据 ， 这 也 是 应 用 程序 通过 XML 解析 器 需要 获取 的 主要 内 容 。 


SAX 解析 器 提供 了 对 XML 文档 内 容 的 有 效 访问 。 与 DOM 解析 器 相 比 ，SAX 解析 
器 具有 更 好 的 性 能 优势 。SAX 解析 器 最 大 的 优点 是 内 存 消耗 小 ， 因 为 它 不 像 DOM 解析 
器 那样 一 次 把 整个 XML 文档 都 加 载 到 内 存 中 , 不 会 在 内 存 中 建立 一 个 与 XML 文件 相对 
应 的 树 状 结构 。SAX 解析 器 采用 基于 事件 驱动 的 处 理 模式 ， 在 任何 时 刻 只 分 析 XML Ж 
件 的 某 一 部 分 ， 因 此 SAX 解析 器 可 以 解析 大 于 系统 内 存 的 XML 文档 。 

SAX (Simple АРІ for XML) 也 是 解析 XML 的 一 种 规范 ， 但 不 是 W3C 的 推荐 标准 。 
SAX 是 开放 源 代码 的 规范 ， 由 一 系列 接口 组 成 。SAX 最 初 由 David Megginson 采用 Java 
语言 开发 而 成 ， 后 来 参与 SAX 开发 的 程序 员 越 来 越 多 ， 在 Intemet 上 组 成 了 XML РЕМ 
社区 。1998 年 5 Н, XML DEV 社区 正式 发 布 了 SAX 1.0 版 ， 目 前 最 新 的 版 本 是 2.0。 
在 SAX 2.0 版 本 中 增加 了 对 命名 空间 的 支持 , 而 且 该 版 本 还 可 以 设置 解析 器 是 否 对 XML 
文档 进行 有 效 性 验证 ， 以 及 怎样 处 理 带 有 命名 空间 的 元 素 名 称 等 功能 。SAX 2.0 中 还 有 
一 个 内 置 的 过 滤 机 制 ， 可 以 很 轻松 地 输出 一 个 XML 文档 子 集 或 进行 简单 的 文档 转换 。 
SAX 2.0 版 本 在 许多 地 方 不 兼容 1.0 版 本 ， 而 且 SAX 1.0 中 的 接口 在 SAX 2.0 中 已 经 不 
再 使 用 。 

SAX API 由 两 个 包 构 成 : 包 org.xml.sax 和 包 org.xml.sax.helper。 其 中 ，org.xml.sax 
包 主 要 定义 了 SAX 的 一 些 基 础 接口 ， 如 XMLReader、ContentHandler、ErrorHandler、 
DTDHandler、EntityResolver 等 ; org.xml.sax.helper 包 提供 了 一 些 方便 开发 人 员 使 用 的 辅 
助 类 ， 如 默认 实现 了 所 有 事件 处 理 接口 的 辅助 类 DefaultHandler、 方 便 开发 人 员 创 建 
XMLReader 的 工厂 类 XMLReaderFactory 等 。 

本 节 主 要 介绍 如 何 使 用 SAX 2.0 进行 XML 文档 处 理 ，JDK 1.6 中 提供 了 SAX 的 
API， 其 中 ，SAX 解析 器 是 Java 语言 版 本 。 

SAX 解析 器 是 一 种 基于 事件 的 解析 器 ， 核 心 是 事件 处 理 模式 。 基 于 事件 的 处 理 模式 
主要 是 围绕 着 事件 源 以 及 事件 处 理 器 来 工作 的 。 一 个 可 以 产生 事件 的 对 象 称 为 事件 源 ， 
针对 事件 进行 处 理 的 对 象 称 为 事件 处 理 器 。 在 事件 源 中 ， 事 件 和 事件 处 理 器 是 通过 注册 
事件 处 理 器 的 方法 进行 关联 的 。 当 事件 源 产生 事件 后 ， 会 调用 事件 处 理 器 相应 的 方法 ， 
该 事件 就 可 以 得 到 处 理 。 在 事件 源 调用 事件 处 理 器 中 相应 的 方法 时 ， 会 传递 给 事件 处 理 
器 相应 事件 的 相关 状态 信息 ， 这 样 ， 事 件 处 理 器 就 能 根据 接收 到 的 事件 状态 信息 来 进行 
处 理 。 

利用 SAX 解析 器 处 理 XML 文件 ， 主 要 包括 下 列 步骤 。 

(1) 实例 化 一 个 XMLReader 类 型 的 对 象 ， 该 对 象 就 是 SAX 解析 器 ， 代 码 如 下 。 


XMLReader xmlReader = null; 
xmlReader = XMLReaderFactory.createxMLReader (); 


上 述 代码 中 , 调用 XMLReaderFactory 类 的 静态 方法 createXMLReader0 得 到 了 SAX 


解析 器 。XMLReaderFactory 类 还 有 另外 一 个 静态 方法 : 


public static XMLReader createXMLReader (String className) 
throws SAXException 


这 个 方法 可 以 指定 要 创建 的 SAX 解析 器 的 类 的 全 名 , 例如 org.apache.xerces.parsers. 
SAXParser。Xerces 是 由 Apache 组 织 所 推动 的 一 项 XML 文档 解析 开源 项 目 ， 目 前 有 多 
种 语言 版 本 ， 除 Java 外 还 包括 CH, Реп 等 语言 。 如 果 调 用 的 是 无 参数 的 
createXMLReader() 方 法 ， 则 默认 创建 的 SAX 解析 器 其 类 型 为 com.sun.org.apache.xerces. 
internal.parsers. SAXParser， 该 类 在 JDK 1.6 安装 之 后 的 rtjar 中 。 

(2) 创建 事件 处 理 器 对 象 ， 并 把 该 对 象 与 xmlReader 对 象 相关 联 。 


StockxmlHandler handler = null; 
handler = new StockXmlHandler (); 
xmlReader .setContentHandler (handler) ; 
xmlReader .setDTDHandler (handler) ; 
xmlReader .setErrorHandler (handler); 


在 上 述 代码 中 ， 类 StockXmlHandler 是 自 定义 的 类 ， 其 父 类 是 DefaultHandler。 类 
DefaultHandler 属于 org.xml.sax.helper 包 ， 该 类 或 其 子 类 的 对 象 就 是 SAX 解析 器 的 事件 
处 理 器 。 

(3) 通过 XMLReader 类 型 的 对 象 xmlReader 调用 parse 方法 即 可 解析 XML 文件 ， 
代码 如 下 。 


xmlReader.parse (File хпЈЕ11е); 


一 旦 调用 了 parse 方法 ，SAX 解析 器 就 开始 解析 指定 的 XML 文件 。SAX 解析 器 在 
解析 XML 文件 时 ， 将 所 有 产生 的 事件 报告 给 已 经 指定 的 事件 处 理 器 ， 该 事件 处 理 器 就 
会 对 这 个 事件 进行 相应 的 处 理 。 事 件 处 理 器 处 理事 件 是 逐个 进行 处 理 的 ，SAX 解析 器 必 
须 等 待 事件 处 理 器 处 理 完成 当前 事件 之 后 才能 继续 解析 XML 文件 ,并 报告 下 一 个 事件 。 
因此 当 事 件 处 理 器 正在 处 理事 件 时 ，SAX 解析 器 处 于 阻塞 状态 。 已 经 处 理 完 的 事件 不 需 
要 继续 存储 在 内 存 中 ， 其 占用 的 资源 会 得 以 释放 ， 因 此 ，SAX 解析 器 占用 的 资源 较 少 ， 
[以 用 来 处 理 较 大 的 XML 文件 。 这 一 点 是 SAX 解析 器 优 于 DOM 解析 器 的 一 个 方面 ， 
也 是 SAX 解析 器 最 大 的 优点 。 


习题 6 


| 


1. 简要 说 明 XML 的 设计 目标 与 特点 。 

2. 简要 说 明 DTD 的 作用 ， 并 举例 说 明 其 语法 特点 。 

3. 简要 说 明 XML Schema 的 作用 ， 并 举例 说 明 其 语法 特点 。 

4. 编写 程序 ， 解 析 第 5 章 中 的 Hibernate 连接 数据 库 配置 文件 ( 例 5.3 hibernate.cfg.xml)。 
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71 JSON 的 语法 


JSON (JavaScript Object Notation) 是 一 种 轻 量 级 的 数据 交换 格式 ， 易 于 人 阅读 和 编 
写 ， 同 时 也 易于 机 器 解析 和 生成 。 它 基于 JavaScript Programming Language, Standard 
ECMA-262 3rd Edition - December 1999 的 一 个 子 集 。JSON 采用 完全 独立 于 语言 的 文本 
格式 ， 但 是 也 使 用 了 类 似 于 C 语言 家 族 的 习惯 (包括 C、C++、C#、Java、JavaScript、 
Perl、Python 等 )。 这 些 特 性 使 JSON 成 为 理想 的 数据 交换 语言 。 

JSON 建构 于 以 下 两 种 结构 。 

О “名 称 / 值 ” 对 的 集合 。 不 同 的 语言 中 ， 它 被 理解 为 对 象 ( object )、 记 录 

( record )、 结 构 体 ( struct )、 字 典 (dictionary )、 哈 希 表 ( hash table )、 有 键 列 
+ (keyed list) 或 者 关联 数组 (associative апау). 

О 值 的 有 序列 表 。 在 大 部 分 语言 中 ， 它 被 理解 为 数组 (array )。 这 些 都 是 常见 的 
数据 结构 。 事 实 上 ， 大 部 分 计算 机 语言 都 以 某 种 形式 支持 它们 。 这 使 得 同一 种 
数据 格式 在 不 同 的 编程 语言 之 间 交 换 成 为 可 能 。 

与 XML 一 样 ，JSON 也 是 基于 纯 文 本 的 数据 格式 。 由 于 JSON 天 生 是 为 
JavaScript 准备 的 ， 因 此 JSON 的 数据 格式 非常 简单 。 可 以 用 JSON 传输 一 个 简单 的 
String、Number、Boolean， 也 可 以 传输 一 个 数组 ， 或 者 一 个 复杂 的 Object 对 象 。String、 
Number 和 Boolean 使 用 JSON 表示 非常 简单 。 例 如 ， 使 用 JSON 来 表示 一 个 字符 串 
“ abc ” 格式 为 "abc"。JSON 具有 以 下 这 些 形式 。 


1. 对 象 


对 象 是 一 个 无 序 的 “名 称 / 值 对 ”集合 。 一 个 对 象 以 “{” 开始 ,“} ”结束 。 每 个 “名 
称 ” 后 跟 一 个 “: ”,“ 名 称 / 值 对 ”之 间 使 用 “, ”分 隔 。 
JSON 中 对 象 的 存储 方式 如 下 。 


object 

LF 

{members} 
members 

pair 

pair, members 
pair 

string : value 


2. 数组 

数组 是 值 (value) 的 有 序 集合 。 一 个 数组 以 “[” 开 始 、“]” 结 束 。 值 之 间 使 用 “，,?” 
分 隔 。 

JSON 中 数组 的 存储 方式 如 下 。 
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3. 单一 值 


值 (value) 可 以 是 双 引 号 括 起 来 的 字符 串 (string)、 数 值 (number)、true、false、null、 
对 象 (object) 或 者 数组 (array)。 这 些 结构 可 以 嵌 套 。 
JSON 中 单一 值 的 存储 方式 如 下 。 


4. 字符 串 


字符 串 (string) 是 由 双 引 号 包围 的 任意 数量 Unicode 字符 的 集合 ,使 用 反 斜 线 转 义 。 
一 个 字符 Сећагасјег) 即 一 个 单独 的 字符 串 〈character string)。 除 了 字符 "，\，/ 和 一 些 
控制 符 Ob, V, n, \г, М) 需要 编码 外 , 其 他 Unicode 字符 可 以 直接 输出 。 字 符 串 (string) 
与 С 或 者 Java 中 的 字符 串 非常 相似 。 

JSON 中 字符 串 的 存储 方式 如 下 。 


5. 数值 


数值 (number) 也 与 С 或 者 Java 的 数值 非常 相似 ， 除 去 未 曾 使 用 的 八进制 与 十 六 进 
制 格式 ， 除 去 一 些 编码 细节 。 
JSON 中 数值 的 存储 方式 如 下 。 


Object 对 象 在 JSON 中 是 用 { } 包含 一 系列 无 序 的 Key-Value 键 值 对 表示 的 ， 实 
际 上 此 处 的 Object 相当 于 Java 中 的 Map<String, Object>, 而 不 是 Java 的 class, 注意 Key 
只 能 用 String 表示 。 例 如 ， 一 个 Book 对 象 包含 如 下 Key-Value。 


用 JSON 表示 如 下 。 
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其 中 ，Value 也 可 以 是 另 一 个 Object 或 者 数组 ， 因 此 ， 复 杂 的 Object HJ PK PKS, 
例如 ， 一 个 Author 对 象 包 含 пате 和 address 对 象 ， 如 下 所 示 。 


7.2 JSON 解析 


目前 已 有 一 些 开放 源 代码 的 JSON 解析 库 可 用 , 其 中 使 用 比较 广泛 的 是 Google 公司 
的 Gson。 本 章程 序 使 用 的 Gson 版 本 为 2.7。 


Gson 中 的 类 Gson， 提 供 了 JSON 字符 串 和 POJO 对 象 之 间 的 转换 函数 : 


通过 调用 上 述 函 数 , 即 可 完成 JSON 字符 串 和 POJO 对 象 之 间 的 双向 转换 ,如 例 7.1 ~ 
例 7.3 所 示 。 


[ 例 7.1] BookBean java 


[9] 7.2] TestObject2JsonString java 


[ 例 7.3] TestJsonString2Object.java 
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在 新 建 了 Gson 对 象 之 后 ， 调 用 该 对 象 的 toJson 方法 即 可 把 实体 类 对 象 转换 为 符合 
JSON 语法 的 字符 串 ， 该 方法 的 参数 就 是 需要 转换 的 实体 类 对 象 。 例 7.2 的 运行 结果 如 图 
7.1 所 示 。 例 7.3 的 运行 结果 如 图 7.2 所 示 。 


az em 0 
"Search. © Console i Wlogcat «к 
Í samina, Tenotject2nensuing Lava Appliatenl одап Нећенуиертуавнае Сотая 72238 

{"title":"Javammy serit", "authors" : "Яза", "же" 5"), "іп": "9787302489078", "press" : "清华 大 学 出 版 社 ", "ргісе":45.0} 


ХҮ 图 7.1 ај ЈОМ 字符 串 


| Problems © Javadoc È Declaration 4 Search © Console 2: ZD LogCat 
<terminated> TestJsonString2Object [Java Application] CNProgram FilesWava\jre8\bin\javaw.exe (20181 8118 下 午 205:52) 
JaVa 面 向 对 象 程序 设计 
[IER 19, #9] 
9787302489078 
清华 大 学 出 版 社 
45.0 
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O 图 7.2_, 把 JSON 字符 串 转换 为 实体 类 对 象 


如 果 是 一 个 包含 多 个 对 象 的 对 象 数组 数据 ， 解 析 原 理 与 解析 单个 对 象 类 似 ， 但 是 不 
能 使 用 POJO 类 的 .class 作为 解析 类 型 ， 此 时 一 般 需 要 使 用 某 种 集合 类 的 对 象 。 本 节 使 用 
了 List 接口 、ArrayList 和 LinkedList 类 来 进行 多 个 对 象 的 存储 ， 如 例 7.4 和 例 7.5 所 示 ， 
运行 结果 如 图 7.3 所 示 。 


[ 例 7.4] TestObjectCollection2JsonString java 


[ 例 7.5] JsonParseUtiljava 
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@rvieé<- ЖЕ 


tli x а" isbn": "9787302489078", "press" : "清华 大 学 出 版 社 ", "price":45.0}, 
бай "Заматта ан", te КА "жк", Даљи "9787302284666","press": "њени" ,"ргасе“ :29.5)] 


| 
O 图 7.3_, 把 对 象 集合 转换 为 JSON FFR 


例 7.5 中 的 工具 类 JsonParseUtil 调用 了 Gson 库 中 的 类 Gson 的 ffromJson0 方 法 ， 该 
方法 的 第 一 个 参数 是 JSON 形式 的 数据 ， 第 二 个 参数 是 从 JSON 数据 中 要 读 取 的 数据 的 
类 型 信息 , 此 处 是 实体 类 BookBean 的 LinkedList 集合 , 因此 该 JSON 数据 中 存储 的 是 一 
种 或 多 种 的 书籍 信息 , 在 例 7.6 的 应 用 程序 中 使 用 变量 jsonData 存储 了 两 种 书籍 的 JSON 
数据 ， 调 用 工具 类 JsonParseUtil 进行 解析 后 输出 。 


[ 例 7.6] TestParseJson java 


) 
例 7.6 的 运行 结果 如 图 7.4 所 示 。 


[E Problems © Javadoc Í Declaration + Search © Console = ® LogCat 
<terminated> TestParseJson [Java Application] C:\Program Рііеѕ\Јауа\јге8\біп\јауам.ехе (2018 年 ] 月 11 日 下 午 2:38:00) 
Pk sk 3k 3k sk 5k ak ak a ake a ak ak ak R R K OR R OROROROR R OR R 
#2: Java 面 向 对 依 程 序 设计 

作者 : ER, Хе, ##] 

ISBN: 9787302489078 

出 版 社 : 清华 大 学 出 版 社 

价格 : 45.0 
ЖЕЖЕЖАЖЕЖЕЖТЖАЖЕЖЕЖЖЖЖЖЖУ 
ва: XML 技术 与 应 用 

作者 : [#38, пж] 

ISBN: 9787302284666 

НАН. 清华 大 学 出 版 社 

和 价格: 29.5 


O 图 74 把 JSON 字符 串 转换 为 对 象 集合 


73 JSON 与 XML 的 比较 


如 果 只 要 表达 一 个 数据 结构 ， 把 一 组 数据 作为 一 个 整体 进行 存储 或 传输 ， 那 么 这 就 
是 一 个 轻 量 级 的 应 用 ， 此 时 既 可 以 使 用 JSON， 也 可 以 使 用 XML。 相 对 于 JSON 而 言 ， 
XML 可 以 算是 重量 级 的 数据 格式 。 这 主要 体现 在 解析 上 。DOM 把 一 个 XML 整体 解析 
成 一 个 DOM 对 象 ， 这 一 点 和 JSON 把 JSON 文字 解析 成 对 象 是 相同 的 。 而 ЅАХ 则 是 一 
个 事件 驱动 的 解析 方法 ， 不 需要 把 整个 XML 文档 都 解析 完 就 可 以 对 解析 出 的 内 容 进 行 
处 理 。 每 当 解 析出 新 的 对 象 时 ， 都 会 通知 到 事件 处 理 器 的 相应 代码 进行 处 理 ， 程 序 也 可 
以 随时 中 止 解析 。 

如 果 在 网 络 上 传输 数据 流 ， 那 么 在 传输 的 过 程 中 ， 已 传输 的 部 分 就 已 经 被 处 理 了 。 
这 一 点 JSON 是 做 不 到 的 , 至 少 目前 的 JSON 程序 组 件 并 不 支持 这 种 解析 方法 , JSON 只 
提供 整体 解析 的 方案 。 

在 普通 的 Web 应 用 中 ， 无 论 是 服务 器 端 生 成 或 处 理 XML ， 还 是 客户 端 使 用 
JavaScript 解析 XML， 都 常常 导致 比较 复杂 的 代码 。 此 外 ,在 JavaScript 语言 中 不 仅 会 
把 来 自 Web 表单 的 数据 放 到 请 求 中 ， 而 且 经 常 使 用 对 象 来 表示 数据 。 在 这 种 情况 下 ， 
从 JavaScript 对 象 中 提取 数据 ， 然 后 再 将 数据 放 到 名 称 - 值 的 对 或 者 XML， 就 有 些 多 此 
一 举 , 此 时 就 适合 使 用 JSON. JSON 为 Web 应 用 开发 者 提供 了 另外 一 种 数据 交换 格式 ， 
允许 将 JavaScript 对 象 转换 为 可 以 随 请 求 发 送 的 数据 , 同步 或 异步 通信 模式 均 可 。 但 是 ， 
JSON 只 提供 了 整体 解析 方案 ， 而 这 种 方法 只 在 解析 较 少 的 数据 时 才能 起 到 良好 的 效 
果 。 而 XML 则 提供 了 对 大 规模 数据 的 逐步 解析 方案 , 这 种 方案 很 适用 于 对 较 大 数据 量 
的 处 理 。 
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在 编码 上 ， 虽 然 XML 和 JSON 都 有 各 自 的 解析 工具 ， 但 是 JSON 的 解析 要 比 XML 
稍微 简单 ; 与 XML 一 样 ，JSON 也 是 基于 文本 的 ， 且 都 使 用 Unicode 编码 ， 与 数据 交换 
格式 XML 一 样 具有 可 读 性 。 主 观 上 来 看 ，JSON 更 为 清晰 且 宛 余 更 少 些 。JSON 官方 网 
站 提供 了 对 JSON 语法 的 严格 描述 ， 只 是 描述 较 简 短 。 从 总 体 来 看 ，XML 比较 适合 于 标 
记 文 档 ， 而 JSON 更 适 于 进行 较 小 数据 量 的 数据 交换 。 


7.4 JSON 的 应 用 Ba 


在 互联 网 时 代 ， 把 网 站 的 服务 封装 成 一 系列 计算 机 易 识 别 的 数据 接口 开放 出 去 ， 供 
第 三 方 开发 者 使 用 ， 这 种 行为 叫 作 Open API， 提 供 开 放 АРІ (应 用 程序 编辑 接口 ) 的 平 
台 被 称 为 开放 平台 。 

淘宝 开放 平台 CTaobao Open Platform) 项 目 是 淘宝 (中 国 ) 软 件 有 限 公 司 面 向 第 三 方 
应 用 开发 者 ， 提 供 API 和 相关 开发 环境 的 开放 平台 。 软 件 开 发 者 可 通过 淘宝 API 来 获取 
淘宝 用 户 信息 、 淘 宝 商 品 信息 、 淘 宝 商品 类 目 信 息 、 淘 宝 店铺 信息 、 淘 宝 交 易 明 细 信 息 、 
淘宝 商品 管理 等 信息 ， 并 建立 相应 的 电子 商务 应 用 。 同 时 ， 它 将 为 开发 者 提供 整套 的 淘 
宝 АРІ 的 附加 服务 : 测试 环境 、 技 术 咨 询 、 产 品 上 架 、 版 本 管理 、 收 费 策略 、 市 场 销售 、 
产品 评估 等 。 

ТЕ ЕЖ АРІ 中 ， 调 用 之 后 返回 的 数据 主要 有 两 种 格式 : XML 和 JSON。 例 如， 在 淘 
宝 开放 平台 的 商品 API 中 ，taobao.items.get 表示 搜索 商品 信息 的 功能 ， 该 АРІ 根据 传 入 
的 搜索 条 件 ， 获 取 商 品 列表 类似 于 淘宝 页 面 上 的 商品 搜索 功能 ， 但 是 只 有 搜索 到 的 商 
品 列表 , 不 包含 商品 的 ItemCategory FK). iZ API 返回 的 XML 数据 格式 如 图 7.5 所 示 ， 
返回 的 JSON 数据 格式 如 图 7.6 所 示 。 可 以 看 出 ,在 开放 平台 的 数据 交换 上 ,XML 和 JSON 
起 着 十 分 重要 的 作用 。 


01 | <?xml version="1,0" encoding="utf-8" ?> 
02 <items_get_response> 
өз <items list="true"> 


о <item> 

05 <iid> 

66 a77489756c91413df8a8f0aab0785be1 
07 </iid> 

ов <nick> 

69 tbtest649 

19 </nick> 

11 </item> 

1 <item> 

13 <iid> 

14 cc@dcf2eb954598b6eeel01959b9b32a 
15 </iid> 

16 <nick> 

17 czhendong961 

18 </nick> 

19 </item> 

20 <item> 

21 <iid> 

22 85e5e5320efb4b5b8de15cc251deb292 
23 </iid> 

24 <nick> 

25 tbtest81 

26 </nick> 

27 </item> 

28 </items> 

29 <total_results> 

30 3 

31 </total_results> 

32 </items_get_response> 

33 <1--vm127.sqa--> 


O 图 7.5_, 搜 索 商 品 信息 API 返回 的 XML 数据 格式 
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01| 
ог "items_get_response": 4 
оз "item: 


"a77d89756c91413df8a8fgaab6785bel"， 


06 "піск": "tbtest649" 


09 "114": "cc0dcf2eb954598b6eee101959b9b32a", 
10 "піск": "czhendong001" 


13 "110": "8SeSe5320efb4bSb8šdel5cc251deb292", 
14 "піск": "tbtest81" 


A 
17 "total_results": 3 


发 了 图 7.6 搜索 商品 信息 API 返回 的 JSON 数据 格式 


习题 7 % 
= 

1. 简要 说 明 JSON 的 语法 特点 。 © 
2. 比较 JSON 和 XML， 并 说 明 在 结构 化 数据 存储 和 交换 中 二 者 的 应 用 情况 。 2 
3. 设计 并 编写 课程 类 ， 编 写 程序 ， 完 成 课程 对 象 (一 个 、 多 个 ) 到 JSON 字符 串 的 双向 解析 功能 。 = 
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大 数据 与 NoSQL 


81 大 数据 概述 


大 数据 (Big Data) 或 称 海量 数据 ， 是 指 所 涉及 的 资料 量规 模 巨大 到 无 法 通过 目前 
主流 软件 工具 ， 在 合理 时 间 内 达到 采集 、 管 理 、 处 理 并 整理 成 为 帮助 企业 经 营 决 策 更 积 
极目 的 的 信息 。 大 数据 有 “4V ”特点 : 规模 性 (Volume)、 多 样 性 (Variety)、 高 速 性 (Velocity) 
和 价值 性 (Value)， 具 体 含义 如 下 。? 

О 规模 性 。 大 数据 的 特征 首先 就 体现 为 “数量 大 ”， 存储 单 位 从 过 去 的 GB 到 ТВ, 
直至 PB、EB。 随 着 信息 技术 的 高 速 发 展 ， 数 据 开 始 爆发 性 增长 。 社 交 网 络 、 
移动 网 络 、 各 种 智能 终端 等 ， 都 成 为 数据 的 来 源 。 因 此 迫切 需要 智能 的 算法 、 
强大 的 数据 处 理 平台 和 新 的 数据 处 理 技术 来 统计 、 分 析 、 预 测 和 实时 处 理 如 此 
大 规模 的 数据 。 

О 多 样 性 。 广泛 的 数据 来 源 ， 决 定 了 大 数据 形式 的 多 样 性 。 大 数据 大 体 可 分 为 三 
Ж: 一 是 结构 化 数据 ， 如 财务 系统 数据 、 信 息 管理 系统 数据 、 医 疗 系统 数据 等 ， 
其 特点 是 数据 间 因 果 关 系 强 ; 二 是 非 结构 化 的 数据 ， 如 视频 、 图 片 、 音 频 等 ， 
其 特点 是 数据 间 没有 因果 关系 ; 三 是 半 结 构 化 数据 ， 如 HTML 文档、 邮件 、 网 
页 等 ， 其 特点 是 数据 间 的 因果 关系 弱 。 

О 高 速 性 。 与 以 往 的 档案 、 广 播 、 报 纸 等 传统 数据 载体 不 同 ， 大 数据 的 交换 和 传 
播 是 通过 互联 网 、 云 计算 等 方式 实现 的 ， 远 比 传统 媒介 的 信息 交换 和 传播 速度 
快捷 。 大 数据 与 海量 数据 的 重要 区 别 ， 除 了 大 数据 的 数据 规模 更 大 以 外 ， 大 数 
据 对 处 理 数 据 的 响应 速度 有 更 严格 的 要 求 。 实时 分 析 而 非 批量 分 析 , 数据 输入 、 
处 理 与 丢弃 立刻 见效 ， 几 乎 无 延迟 。 数 据 的 增长 速度 和 处 理 速度 是 大 数据 高 速 
性 的 重要 体现 。 

О ”价值 性 。 这 也 是 大 数据 的 核心 特征 。 现 实 世界 所 产生 的 数据 中 ， 有 价值 的 数据 
所 占 比例 很 小 。 相 比 于 传统 的 小 数据 ， 大 数据 最 大 的 价值 在 于 通过 从 大 量 不 相 
关 的 各 种 类 型 的 数据 中 ， 挖 气 出 对 未 来 趋势 与 模式 预测 分 析 有 价值 的 数据 ， 并 
通过 机 器 学 习 方法 、 人 工 智能 方法 或 数据 挖 握 方法 深度 分 析 ， 发 现 新 规律 和 新 
知识 ， 并 运用 于 农业 、 人 金融、 医疗 等 各 个 领域 ， 从 而 最 终 达 到 改善 社会 治理 、 
提高 生产 效率 、 推 进 科学 研究 的 效果 。 

针对 大 数据 的 特点 ， 本 节 将 简单 介绍 目前 处 理 大 数据 所 用 到 的 主流 软件 框架 
Hadoop. Spark 等 。 
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-- 8.1.1 Надоор-, 


Hadoop 是 一 个 能 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ， 具 有 可 靠 、 高 效 、 可 伸缩 
的 特点 。Hadoop 的 核心 是 HDFS 和 MapReduce, Hadoop 2.0 还 包含 YARN. Hadoop Æ 


O Rig. 大 数据 4V 特征 与 六 大 发 展 趋势 [EB/OL]. 中 国 发 展 门户 网 http://cn.chinagate.cn/news/2015-11/16/content 
37074270.htm.2015-11-16. 
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态 系统 的 构成 如 图 8.1 所 示 。 
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ГУ 图 8.1 Hadoop 生态 系统 构成 2 


Hadoop 生态 系统 中 主要 包含 HDFS、MapReduce、HBase、Hive、Pig 和 Mahout。 

HDFS 是 Hadoop 体系 中 数据 存储 管理 的 基础 。 它 是 一 个 高 度 容 错 的 系统 ， 能 监 
测 和 应 对 硬件 故障 ， 用 于 在 低 成 本 的 通用 硬件 上 运行 。HDFS 简化 了 文件 的 一 致 性 模 
型 ， 通 过 流 式 数据 访问 ， 提 供 高 吞吐 量 应 用 程序 数据 访问 功能 ， 适 合 带 有 大 型 数据 集 
的 应 用 程序 。 

MapReduce 是 一 种 计算 模型 ， 用 于 进行 大 量 数据 的 计算 。 其 中 ，Map 对 大 量 数据 集 
上 的 独立 元 素 进行 操作 ， 生 成 键 值 对 形式 的 中 间 结 果 。Reduce 则 对 中 间 结 果 相 同 “ 键 ” 
的 所 有 “ 值 ” 进 行规 约 ， 以 得 到 最 终结 果 。MapReduce 这 样 的 功能 划分 ， 非 常 适合 在 大 
量 计算 机 组 成 的 分 布 式 并 行 环境 里 进行 数据 处 理 。 

НВаѕе 是 一 个 构建 在 HDFS 上 的 分 布 式 列 存储 系统 .HBase 是 基于 Google BigTable 
模型 开发 的 典型 的 Key/Value 系统 ; HBase 是 Apache Hadoop 生态 系统 中 的 重要 一 员 ， 
主要 用 于 海量 结构 化 数据 存储 从 逻辑 上 讲 ，HBase 将 数据 按照 表 、 行 和 列 进行 存储 。 
HBase 目标 主要 依靠 横向 扩展 ， 通 过 不 断 增加 廉价 的 商用 服务 器 ， 来 增加 计算 和 存储 
能 力 。 

Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 它 提供 了 一 系列 的 工具 ， 可 以 用 来 
进行 数据 提取 转换 加 载 (ETL)， 这 是 一 种 可 以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 大 
规模 数据 的 机 制 。Hive 定义 了 简单 的 类 SQL 查询 语言 ， 称 为 HQL， 它 允许 熟悉 SQL 的 
用 户 查 询 数据 。 同 时 ， 这 个 语言 也 允许 熟悉 MapReduce 的 开发 者 开发 自 定义 的 mapper 
和 reducer 来 处 理 内 建 的 mapper 和 reducer 无 法 完成 的 复杂 的 分 析 工 作 。 

Pig 包括 两 部 分 : 用 于 描述 数据 流 的 语言 ， 称 为 Pig Latin; 用 于 执行 Pig Latin 程序 
的 执行 环境 ， 当 前 有 两 个 环境 一 一 单 JVM 中 的 本 地 执行 环境 和 Hadoop 集群 上 的 分 布 式 
执行 环境 。Pig 内 部 ， 每 个 操作 或 变换 是 对 输入 进行 数据 处 理 ， 然 后 产生 输出 结果 ， 这 


© EBR. Hadoop 生态 系统 [EB/OL]. CSDN- 专 业 技 术 社区 https://blog.csdn netu010270403/article /details/51493191. 


些 变换 操作 被 转换 成 一 系列 MapReduce (ЕМИ, Pig 让 程序 员 不 需要 知道 这 些 转换 具体 是 
如 何 进 行 的 ， 这 样 工程 师 可 以 将 精力 集中 在 数据 上 ， 而 非 执行 的 细节 上 。 

Маһош 是 一 个 很 强大 的 数据 挖掘 工具 ， 是 一 个 分 布 式 机 器 学 习 算 法 的 集合 ， 包 括 : 
被 称 为 Taste 的 分 布 式 协同 过 滤 的 实现 、 分 类 、 聚 类 等 。Mahout 最 大 的 优点 就 是 基于 
Hadoop 实现 ， 把 很 多 以 前 运行 于 单机 上 的 算法 ， 转 换 为 MapReduce 模式 ， 这 样 大 大 提 
升 了 算法 可 处 理 的 数据 量 和 处 理性 能 。 


ө --8.1.2 рагк -. 


在 Spark 面市 之 前 ， 各 种 计算 框架 纷繁 复杂 ， 如 用 于 做 批 处 理 的 计算 框架 
MapReduce, Hive 和 Pig， 用 于 做 流 式 计算 的 Storm， 用 于 做 计算 的 Impala， 且 很 多 框架 
还 存在 局 限 性 ， 例 如 ，MapReduce 仅 支 持 Map 和 Reduce 两 种 操作 ， 计 算 效 率 低 ， 不 适 
合 交互 处 理 以 及 流 式 处 理 ， 并 且 编 程 不 够 灵活 等 OLK 8.1)。 所 以 Spark 是 考虑 了 当时 
现 有 的 计算 框架 的 局 限 性 、 复 杂 性 而 设计 的 一 个 统一 的 编程 抽象 ， 可 以 处 理 不 同 的 计算 
任务 ， 易 于 编程 ， 处 理 大 数据 的 新 的 开源 计算 框架 。 


27° 2881 _ Spark 5 MapReduce 的 比较 


数据 存储 结构 : 使 用 内 存 构建 弹性 分 布 式 数 据 集 

RDD， 对 数据 进行 计算 和 cache 

编程 模式 ，Transformation + action 

计算 中 间 数 据 在 内 存 中 维护 ， 存 取 速 度 是 磁盘 的 多 | 计算 中 间 数 据 落 磁盘 ,IO 及 序列 化 、 反 序列 化 代 

个 数量 级 价 大 

任务 以 线程 的 方式 维护 ， 对 小 数据 集 的 读 取 能 达到 А = 

亚 秒 级 的 延迟 任务 以 进程 的 方式 维护 ， 任 务 启动 就 有 数秒 
Spark 的 计算 速度 比 Hadoop 的 MapReduce 在 内 存 中 的 速度 快 10 倍 ， 硬 盘 中 的 速度 

快 将 近 100 倍 ， 支 持 语 言 包括 Java, Scala, R 和 Python 等 。Spark 框架 中 有 很 多 工具 ， 

例如 ，Spark SQL、 用 于 机 器 学 习 的 MLlib、 用 于 图 计算 的 GraphX， 以 及 用 于 处 理 流 式 

计算 的 Spark Streaming。 用 户 可 以 将 以 上 这 些 工具 全 部 集成 到 已 有 的 应 用 系统 中 (如 图 

8.2 所 示 )。 


磁盘 HDFS 文件 系统 的 split 分 块 
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Spark 可 以 运行 在 非常 多 的 平台 上 ， 如 Hadoop, Mesos, standalone 或 者 集群 ， 它 可 
以 访问 各 种 不 同 的 存储 系统 中 的 数据 ， 如 HDFS、HBase、Cassandra 以 及 任何 的 Hadoop 
数据 资源 。 


8.2 NoSQL 数据 库 


NoSQL 是 非 关系 型 的 数据 库 。 随 着 互联 网 Web 2.0 网 站 的 兴起 ， 传 统 的 关系 数据 库 
在 应 对 Web 2.0 网 站 , 特别 是 超大 规模 和 高 并 发 的 社交 网 络 服务 (Social Network Service, 
SNS) 类 型 的 纯 动态 网 站 时 已 经 显得 力不从心 ， 暴 露 了 很 多 难以 克服 的 问题 。 而 非 关系 
型 的 数据 库 则 由 于 其 本 身 的 特点 得 到 了 非常 迅速 的 发 展 。NoSQL (NoSQL = Мог Only 
SQL ) 即 “不 仅 是 SQL”, 是 一 项 全 新 的 数据 库 革 命 性 运动 。 早 期 就 有 人 提出 , 发 展 至 2009 
年 趋势 越发 高 涨 。NoSQL 的 拥护 者 们 提倡 运用 非 关 系 型 的 数据 存储 ， 相 对 于 铺天盖地 的 
关系 型 数据 库 运 用 ， 这 一 概念 无 疑 是 一 种 全 新 的 思维 的 注入 。 

计算 机 体系 结构 在 数据 存储 方面 要 求 具 备 庞大 的 水 平 扩展 性 ， 而 NoSQL 致力 于 改 
变 这 一 现状 。Google 的 BigTable 和 Amazon 的 Dynamo 使 用 的 就 是 NoSQL 型 数据 库 ， 
它们 可 以 处 理 超 大 量 的 数据 。 

NoSQL 可 以 运行 在 PC 服务 器 集群 上 ， 处 理 超大 量 的 数据 。PC 集群 扩充 起 来 非常 
方便 并 且 成 本 很 低 ， 这 样 就 避免 了 “sharding” 操 作 的 复杂 性 和 成 本 。 通 过 NoSQL 架构 
可 以 省 去 将 Web 或 Java 应 用 和 数据 转换 成 SQL 格式 的 时 间 , 执 行 速度 变 得 更 快 .NoSQL 
在 数据 完整 性 上 也 发 挥 稳定 。 

与 传统 的 关系 型 数据 库 不 同 ，NoSQL 数据 库 的 种 类 很 多 ， 且 各 有 各 的 优势 和 缺点 ， 
可 以 大 体 上 分 为 4 个 种 类 : 键 值 (Key-Value) 存储 数据 库 、 列 存储 数据 库 、 文 档 型 数据 
库 、 图 形 〈Graph) 数据库 。 


1. 键 值 存储 数据 库 


键 值 (Key-Value) 存储 数据 库 主要 使 用 了 哈 希 表 ， 这 张 表 中 有 一 个 特定 的 键 和 一 个 
指针 指向 特定 的 数据 。Key-Value 模型 对 于 IT 系统 来 说 ， 其 优势 在 于 简单 、 易 部 署 。 但 
是 如 果 DBA 只 对 部 分 值 进行 查询 或 更 新 的 时 候 ，Key-Value 就 显得 效率 低下 了 。 


2. 列 存储 数据 库 


这 部 分 数据 库 通 常 是 用 来 应 对 分 布 式 存储 的 海量 数据 。 键 仍然 存在 ， 但 是 它们 的 特 
点 是 指向 了 多 个 列 。 这 些 列 是 由 列 家 族 来 安排 的 ， 如 Cassandra、HBase、Riak 等 。 


3. 文档 型 数据 库 


文档 型 数据 库 的 灵感 来 自 Lotus Notes 办 公 软 件 ， 而 且 它 同 第 一 种 键 值 存储 相 类 似 。 
该 类 型 的 数据 模型 是 版 本 化 的 文档 ， 半 结构 化 的 文档 以 特定 的 格式 存储 ， 比 如 JSON. 
文档 型 数据 库 可 以 看 作 键 值 数 据 库 的 升级 版 ， 允 许 之 间 骨 套 键 值 。 而 且 文 档 型 数据 库 比 
键 值 数据 库 的 查询 效率 更 高 ， 如 CouchDB 、MongoDB 。 国 内 也 有 文档 型 数据 库 
SequoiaDB， 目 前 已 经 开源 。 


4. 图 形 数据 库 


图 形 数据 库 是 使 用 灵活 的 图 形 模型 ， 并 且 能 够 扩展 到 多 个 服务 器 上 。NoSQL 数 
据 库 没有 标准 的 查询 语言 (SQL)， 因 此 进行 数据 库 查询 需要 制定 数据 模型 。 许 多 
NoSQL 图 形 数据 库 都 有 REST 式 的 数据 接口 或 者 查询 API, 如 Neo4J、InfoGrid、 Infinite 
Graph 等 。 

NoSQL 型 数据 库 的 优势 有 以 下 几 点 。 


1. 易 扩展 


NoSQL 数据 库 种 类 繁多 ， 但 是 一 个 共同 的 特点 都 是 去 掉 关 系数 据 库 的 关系 型 特 
性 。 数 据 之 间 无 关系 ,这 样 就 非常 容易 扩展 ， 因 此 在 架构 的 层面 上 也 带 来 了 可 扩展 的 
能 力 。 

2. 大 数据 量 ， 高 性 能 


NoSQL 数据 库 都 具有 非常 高 的 读 写 性 能 ， 尤 其 在 大 数据 量 下 ， 同 样 表现 优秀 。 这 得 
益 于 它 的 无 关系 性 ， 数 据 库 的 结构 简单 。 一 般 MySQL 使 用 Query Cache， 每 次 表 的 更 
新 Cache 就 失效 ， 是 一 种 大 粒度 的 Cache。 在 针对 Web 2.0 的 交互 频繁 的 应 用 时 ，Cache 
性 能 不 高 。 而 NoSQL 的 Cache 是 记录 级 的 ， 是 一 种 细 粒 度 的 Cache， 所 以 NoSQL 在 这 
个 层面 上 来 说 就 要 性 能 高 很 多 。 

3. 灵活 的 数据 模型 


NoSQL 无 须 事先 为 要 存储 的 数据 建立 字段 , 随时 可 以 存储 自 定义 的 数据 格式 。 而 在 
关系 数据 库 里 ， 增 删 字段 是 一 件 非常 麻烦 的 事情 。 如 果 是 非常 大 数据 量 的 表 ， 增 加 字段 
简直 就 是 一 个 囊 梦 。 这 点 在 大 数据 量 的 Web 2.0 时 代 尤 其 明显 。 


4. 高 可 用 


NoSQL 在 不 太 影响 性 能 的 情况 下 ,就 可 以 方便 地 实现 高 可 用 的 架构 。 比 如 Cassandra, 
HBase 模型 ， 通 过 复制 模型 也 能 实现 高 可 用 。 

NoSQL 型 数据 库 处 于 发 展 阶段 ， 存 在 的 问题 主要 是 : NoSQL 型 数据 库 并 未 形成 一 
定 标准 ， 各 种 产品 层出不穷 ， 内 部 混乱 ， 各 种 项 目 还 需 时 间 来 检验 。 

总 之 ，NoSQL 数据 库 在 这 些 情况 下 比较 适用 : 数据 模型 比较 简单 ; 需要 灵活 性 更 强 
的 IT 系统 ， 对 数据 库 性 能 要 求 较 高 ， 不 需要 高 度 的 数据 一 致 性 等 情形 。 
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2006 # 11 H, Google 发 布 一 篇 关于 BigTable 的 论文 ， 以 此 为 基本 原理 ，2008 年 第 
一 个 不 稳定 版 本 的 名 为 HBase 的 分 布 式 、 面 向 列 的 开源 数据 库 面市 。HBase 是 Hadoop 
的 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 数据 库 。HDFS、MapReduce、Zookeeper 分 别 
为 其 提供 了 可 靠 底层 存储 支持 ， 高 性 能 计算 能 力 ， 稳 定 的 服务 和 failover 机 制 。 
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HRegionServer 是 HBase 的 核心 ， 通 过 RPC 协议 与 HMaster 和 客户 端 进行 通信 ， 响 
应 用 户 的 VO 请 求 ， 并 向 HDFS 读 写 数据 。 如 图 8.3 所 示 ，HRegionServer 内 部 管理 了 一 
系列 HRegion 对 象 ， 每 个 HRegion 对 应 表 中 的 一 个 区 。HRegion 中 又 是 由 多 个 HStore 
组 成 ， 每 个 HStore 对 应 表 中 的 一 个 列 簇 的 存储 。 
Client 


Рщ() 
delete() 


Y 
‚ Тор Тор 
С HRegionServer Flusher a) 


і j | 
эше a siore 
StoreFile| |StoreFile| StoreFile 

[HFile] | | [HFile| 


StoreFile| |StoreFile t 
НЕП] 
СУ 图 8.3 HBase 整体 框架 图 ” 


HStore 则 是 HBase 的 存储 核心 ， 其 由 两 部 分 组 成 ， 一 部 分 是 MemStore， 另 一 部 分 
是 StoreFiles。 用 户 写 入 的 数据 会 先 放 入 MemStore， 当 MemStore 存 满 之 后 会 生成 一 个 
StoreFile。 当 StoreFile 文件 的 总 数 达 到 一 定数 值 的 时 候 ，Compact 合并 操作 会 被 触发 ， 
此 时 会 将 多 个 StoreFiles 合并 成 一 个 StoreFile。 在 这 个 合并 的 过 程 中 版 本 会 合并 并 且 宛 余 
数据 也 会 被 删除 。 由 此 也 可 以 发 现 ，HBase 其 实 只 是 在 不 断 增加 新 的 数据 ， 在 Compact 
环节 中 进行 了 所 有 的 更 新 数据 和 删除 数据 。 


ө --8.3.1 НВаѕе 的 数据 逻辑 结构 - -， 


HBase 的 数据 逻辑 结构 主要 包含 行 键 (Rowkey)、 列 (Column)、 时 间 惟 (Timestamp, 
也 称 为 版 本 version) 和 Cell。 其 中 ，Cell 由 行 键 、 列 徐 和 时 间 戳 唯一 确定 ， 无 数据 类 型 
并 且 全 部 是 字 节 码 形式 ， 列 可 以 由 family 和 qualifier 两 部 分 组 成 。 

如 图 8.4 所 示 ， 如 果 想 确定 到 “CNN.com” 所 在 的 Cell， 则 由 行 键 “com.cnn.www”、 
列 徐 “anchormylook.ca” 和 时 间 戳 “t8” 唯 一 确定 。 其 中 ,“anchor” 是 family 名 ， 

“my.look.ca” 为 qualifier 名 。 


® George L. НВазе - The Definitive Guide: Random Access to Your Planet-Size Data [M]. DBLP. 2011. 


ө 83:2=HBase: 安 装 部 署 - 

在 安装 部 署 HBase 之 前 ， 必 须 先 确保 Hadoop 已 经 安装 完成 ， 并 且 要 求 Hadoop 
已 经 可 以 正常 运行 .HBase 不 仅 需要 部 署 在 Master 节点 上 ,也 需要 安装 在 所 有 的 Slave 
节点 上 。 

在 Apache 官网 (http://www.apache.org/dyn/closer.cgi/hbase/) 可 以 免费 下 载 到 各 种 版 
本 的 HBase。 根据 所 使 用 的 Hadoop 版 本 , 请 下 载 对 应 版 本 的 HBase, 以 免 发 生 版 本 冲突 。 


а 


@ 使 用 以 下 命令 ， 解压 HBase 安装 包 。 


[buu@master ~]$ mv ~/download/hbase-1.1.12-bin.tar.gz ~/ 
[buu@master ~]$ са 

[buu@master ~]$ tar -zxvf ~/hbase-1.1.12-bin.tar.gz 
[buu@master ~]$ cd ћразе-1.1.12 


@ 配 置 HBase， 进 入 HBase 安装 主 目录 ， 然 后 修改 配置 文件 。 


“contents” “anchor:cnnsi.com” “anchor:my.look.ca” 


“com.cnn.www” ;| “CNN” ki } | “CNN.com” kt 


СУ 图 84 _НВазе 数据 逻辑 结构 ” 
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) 在 Master 节点 完成 以 下 操作 。 


[buu@master ~]$ са /home/buu/hbase-1.1.12/conf 


名 修改 环境 变量 hbase-env.sh。 
使 用 以 下 命令 打开 文件 : 


[buu@master conf]$ gedit hbase-env.sh 
在 此 文件 中 找到 以 下 内 容 : 


# export ЈАМА HOME=/usr/java/jdkl.6.0/ 


1⁄1 


其 更 改 为 所 用 的 JDK 版 本 的 路 径 ， 并 去 掉 # 号。 本 例 中 ЛОК 版 本 为 1.7.0_ 71， 存 


放 在 /usr/java/jdk1.7.0_ 71/， 所 以 更 改 为 : 


@ с 


hang Fay. Dean Jeffrey. Ghemawat Sanjay.etc. Bigtable: A Distributed Storage System for Structured Data.2006. 
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ОДЕЋЕ ЛЕНЕ hbase-site.xml。 
使 用 以 下 内 容 蔡 换 原先 hbase-site xml 中 的 内 容 。 


OWE герјопзегуег5 

将 regionservers 中 的 localhost 修改 为 Hadoop 集群 中 的 Slave 的 节点 名 列表 。 
@ 设 置 环境 变量 。 

编辑 Linux 系统 的 配置 文件 ， 执 行 以 下 代码 。 


将 下 面 的 代码 添加 到 文件 末尾 。 


然后 执行 : 
[puuemaster -19 source ~/.bash_profile | 


(2) HBase 安装 文件 复制 到 Hadoop 的 所 有 Slave 节点 , 如 果 只 设置 了 一 个 Slave 
节点 ， 节 点 名 称 为 slave， 此 时 执行 : 


(3) 启动 并 验证 Hbase。 
进入 HBase 安装 主 目录 ， 启 动 Hbase- 


[buu@master Һраѕе-1.1.12]$ bin/start-hbase.sh 

使 用 UI 界面 查看 HBase 的 启动 情况 ， 在 浏览 器 地 址 栏 中 输入 网 址 http://master: 
60010， 若 启动 成 功 便 可 看 到 HBase 管理 页 面 ( 如 图 8.5 所 示 )， 若 失败 则 会 返回 页 面 不 
存在 。 


Region Servers 


| 
ServerName Start time Requests Per Num. 
Second Regions 


2014 


тош 0 2 


СҮ 图 8.5 _ НВазе 启动 情况 管理 界面 
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e 83.3 НВаѕе Shell 操作 命令 实验 -、 


根据 Apache 官网 HBase 主页 的 技术 文档 ， 下 面 简介 HBase Shell 的 操作 命令 9。 
首先 验证 Hadoop 和 HBase 集群 可 以 正常 启动 及 运行 。 


1. 进入 客户 端 并 启动 HBase Shell 


[buu@master ~]$ cd /home/buu/hbase-1.1.12 
[buu@master hbase-1.1.12]$ bin/hbase shell 


2. 表 的 管理 


(1) 查看 列表 。 
查看 表 的 命令 是 : list。 


hbase (main) :001:0> list 


(2) 创建 表 。 
创建 表 的 命令 是 : 


create <table>, {NAME =><family>, VERSIONS =><VERSIONS>} 
例如 ， 创 建 表 test, column family X fl, ЊЕ GRE) 为 5。 


hbase (main) :002:0> create 'test', {NAME => 'fl', VERSIONS => 5) 


®© Apache Hase.http://hbase.apache.org/. 


(3) 插入 数据 。 
插入 数据 的 命令 是 : 


向 表 中 插入 数据 只 能 一 列 一 列 地 插入 ， 不 能 同时 添加 多 列 。 
例如 ， 向 表 test 中 aid001 行 键 、fl:uid 中 插入 值 001。 


(4) 扫描 查询 数据 。 
扫描 查询 的 命令 是 : 


例如 ， 扫 描 表 test: 


(5) 单条 查询 数据 。 
单条 查询 命令 是 : 


例如 ， 查 询 表 test 行 键 为 aid001 的 数据 信息 : 


(6) 查看 表 结 构 。 
查看 表 结 构 的 命令 是 : describe <table>. 
例如 ， 查 看 表 test 的 结构 : 


(7) 修改 表 。 
修改 表 时 ， 一 般 先 执行 disable 命令 ;然后 执行 alter 命令 ， 再 执行 enable 命令 。 
例如 ， 为 表 test 改变 或 增加 一 个 列 簇 : 


(8) 清空 表 。 
清空 表 的 命令 是 : truncate <table>。 


(9) 删除 表 。 
删除 表 时 ， 首 先 执行 disable 命令 ， 然 后 再 执行 drop 命令 。 


语法 : drop <table> 
hbase (main) :004:0> disable 'test' 
hbase (main) :004:0> drop 'test' 


8.4 MongoDB 


MongoDB (来 自 英文 单词 “Humongous”， 中 文 含义 为 “庞大 ”) 是 可 以 应 用 于 各 种 规 
模 的 企业 、 各 个 行业 以 及 各 类 应 用 程序 的 开源 面向 文档 (Docment-Oriented) Ж. Е 
为 一 个 适用 于 敏捷 开发 的 数据 库 ，MongoDB 的 数据 模式 可 以 随 着 应 用 程序 的 发 展 而 灵 
活 地 更 新 。 与 此 同时 ， 它 也 为 开发 人 员 提供 了 传统 数据 库 的 功能 ， 例 如 ， 二 级 索引 ， 完 整 
的 查询 系统 以 及 严格 的 一 致 性 等 。MongoDB 能 够 使 企业 更 加 具有 敏捷 性 和 可 扩展 性 ， 各 
种 规模 的 企业 都 可 以 使 用 MongoDB 来 创建 新 的 应 用 ， 提 高 与 客户 之 间 的 工作 效率 。 

MongoDB 是 专 为 可 扩展 性 、 高 性 能 和 高 可 用 性 而 设计 的 数据 库 。 它 可 以 从 单 服务 
器 部 署 扩展 到 大 型 、 复 杂 的 多 数据 中 心 架构 。 利 用 内 存 计算 的 优势 ，MongoDB 能 够 提 
供 高 性 能 的 数据 读 写 操作 。MongoDB 的 本 地 复制 和 自动 故障 转移 功能 使 应 用 程序 具有 
企业 级 的 可 靠 性 和 操作 灵活 性 。 


e- 8.4.1 MongoDB 的 特点 ， 

MongoDB 作为 一 个 典型 的 文档 型 数据 库 ， 主 要 有 下 列 特 点 。 

О 高 性 能 MongoDB 提供 了 高 性 能 的 数据 操作 ; 支持 庶 入 式 数据 模型 从 而 减少 
数据 库 系 统 的 IO 操作 ; 支持 对 嵌入 式 文档 和 数组 建立 索引 ， 从 而 提供 高 性 能 
查询 操作 。 

О 丰富 的 查询 语言 MongoDB 支持 丰富 的 读 写 操作 ( CRUD )， 包 括 数据 聚集 ， 
文本 检索 和 地 图 搜索 ; 查询 指令 使 用 JSON 形式 的 标记 ， 可 轻易 查询 文档 中 内 
Жн, 

高 可 用 性 : MongoDB 的 复制 集 实现 了 数据 库 的 宛 余 备份 和 自动 故障 转移 。 
支持 大 数据 存储 : MongoDB 引入 了 分 片 机 制 ， 实 现 了 海量 数据 的 分 布 式 存储 
与 高 效 的 读 写 分 离 ; 提供 由 JavaScript 编写 的 Мар 和 Кейисе 函数 ,并 且 可 以 通 
过 db.runCommand 或 mapreduce 命令 来 执行 MapReduce 操作 。 

О 支持 多 存储 引擎 : MongoDB 支持 多 个 存储 引擎 ， 例 如 ，WiredTiger Storage 

Engine. ММАРУІ Storage Engine. 

О 支持 各 种 编程 语言 ; Ruby. Python. Java. C++, РНР. C#*. 


口 口 


е-- 8.4.2 MongoDB 的 核心 概念 - 


` 
Fa SS ss жапай ИШ 22 awas дй йа sa дш Са Sa дА aman Жа ан Sa G an аш ан РА 


MongoDB 非常 强大 且 容 易 使 用 ， 其 中 主要 涉及 的 核心 概念 有 : 文档 、 集 合 和 数据 库 。 


博 为 峰 . Mongodb 概述 (四 ) . CSDN- 专 业 技术 社区 ，https://blog.csdn netbwf erg/article/details/54954768. 
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1. 文档 


MongoDB 中 的 基本 存储 单元 是 一 个 文档 ， 这 个 文档 由 键 值 对 组 成 。MongoDB 中 的 
文档 结构 类 似 于 JSON 对 象 。 其 中 ， 值 的 数据 类 型 包括 常见 的 字符 串 、 数 字 、 日 期 ， 还 
包括 其 他 文档 、 数 组 和 文档 数组 〈 如 例 8.1 Bras). 

[ 例 8.1] MongoDB 文档 

{ 


name: "регента 

аде: 26, 

statusi ИАТА 

groups: ["пемѕ", "sports"] 
) 


使 用 文档 作为 基本 存储 单元 的 优势 在 于 : 嵌入 式 文档 和 数组 能 够 减少 代价 昂贵 的 
join 操作 。 表 结构 支持 动态 扩展 。 


2. 集合 


集合 就 是 一 组 文档 。 如 果 将 MongoDB 中 的 一 个 文档 比喻 为 关系 型 数据 库 的 一 行 ， 
那么 一 个 集合 就 相当 于 一 张 表 。 集 合 是 动态 模式 的 ， 也 就 意味 着 集合 里 的 文档 可 以 是 各 
种 形式 的 。 比 如 下 面 的 两 个 文档 可 以 同时 存 入 到 一 个 集合 中 。 


{пате : "mongodb", аде:20) 
{пате : "топдодрпем", sex:"male", аде=21) 


当 第 一 个 文档 插入 时 ， 集 合 就 会 被 创建 ， 然 后 第 二 个 文档 插入 时 ， 直 接 插入 到 已 经 
创建 的 文档 中 。 


3. 数据 库 


在 MongoDB 中 ， 多 个 文档 组 成 集合 ， 多 个 集合 组 成 数据 库 。 一 个 MongoDB 实例 
可 以 承载 多 个 数据 库 ， 每 个 数据 库 拥 有 0 个 或 多 个 集合 。 每 个 数据 库 都 有 独立 的 权限 ， 
即便 是 在 磁盘 上 ， 不 同 的 数据 库 也 放置 在 不 同 的 文件 中 。 


@--8.4.3 安装 Мопдорв, 

首先 ， 可 以 在 MongoDB 官网 下 载 相 应 的 安装 包 ( 如 图 8.6 所 示 )， 下 载 地 址 : 
https://www.mongodb.com/download-center#community。 

可 以 根据 操作 系统 的 类 型 ， 选 择 对 应 的 版 本 并 下 载 。 本 书 以 Windows 版 本 为 例 。 下 
载 后 双击 该 文件 , 按 操 作 提示 安装 即 可 。 安装 过 程 中 , 可 以 通过 单 击 “Custom С ЕХ)” 
按钮 来 设置 安装 目录 。 


Current Stable Release (3.4.10) 
1091/2017: Rolease Netes | rangelog 
Downoad Source 102 | no 


Version: 
Windows Server 2008 А2 64-04 and later. wan SSL support жб4 $ 


Installation Package 


Binary: restr ra сб | А verson Brunes 


Depioy а oe chatas in зе cloud with MongoDB Atas. our database service Nal gets you up and running in minutes. 


ХҮ #88.6 „MongoDB 安装 包 选择 界面 


1. 创建 数据 目录 


MongoDB 将 数据 目录 存储 在 db 目录 下 。 但 是 这 个 数据 目录 不 会 主动 创建 ， 在 安装 
完成 后 需要 创建 它 。 请 注意 ， 数 据 目录 应 该 放 在 根 目录 下 〈 如 CA 或 者 D' 等 )。 可 以 
通过 Windows 资源 管理 器 ， 在 对 应 的 路 径 下 创建 目录 。 


2. 运行 MongoDB 服务 器 


为 了 从 命令 提示 符 下 运行 MongoDB 服务 器 ， 必 须 从 MongoDB 目录 的 bin 目录 
中 执行 mongod.exe 文件 。 命 令 如 下 。 


如 果 执行 成 功 ， 会 输出 如 下 提示 信息 。 


第 
章 
大 
数 
据 
与 
= 
о 

оф 
о 
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2017-09-25Т15:54:09.296+0800 I CONTROL [initandlisten] targetMinOS: 
Windows 7/W 

indows Server 2008 R2 

2015-09-25T15:54:09.298+0800 I CONTROL [initandlisten] db version v3.0.6 


3. 连接 MongoDB 
在 命令 窗口 中 运行 mongo.exe 命令 即 可 连接 上 MongoDB， 执 行 如 下 命令 。 


C:\mongodb\bin\mongo .ехе 
另外 , 也 可 以 通过 类 似 于 JDBC 的 方式 , 在 Java 程序 中 使 用 MongoDB。 在 Java ЋЕ 
序 中 使 用 MongoDB， 需 要 确保 已 经 安装 了 Java W MongoDB JDBC 驱动 程序 。 
首先 , 需要 下 载 mongo jar 包 , 下 载 地 址 : http://mongodb.github.io/ mongo-java-driver/, 
请 确保 下 载 最 新 版 本 ， 如 图 8.7 所 示 。 


mongo-java-driver 


EREN АЕ РА УН ИБИ ЖЕ 


<dependencies> 
<dependency> 
<groupId>org.mongodb</groupId> 
<artifactId>mongo-jova-driver</artifactId> 


程 


<version>3.5.0</version> 
</dependency> 
</dependencies> 


An uber jar containing the bson library, the core library and the mongodb-driver. 
This artifact is a valid OSGi bundle. 


Ф 8.7 _ MongoDB JDBC 驱动 下 载 


然后 ， 需 要 将 mongo-java-driverjar (找到 合适 的 版 本 ) 包含 在 classpath 中 。 最 后 ， 
连接 数据 库 时 需要 指定 数据 库 名 称 ， 如 果 指 定 的 数据 库 不 存在 ，Mongo 会 自动 创建 数据 
库 。 连 接 数 据 库 的 Java 代码 如 例 8.2 所 示 。 

[ 例 8.2] Java 程序 中 连接 MongDB 


import com.mongodb.MongoClient; 


import com.mongodb.client.MongoDatabase; 
public class MongoDBJDBC{ 
public static void main (String args[]){ 
try( 
71 连接 到 mongodb 服务 
MongoClient mongoClient = new MongoClient 
( “localhost , 27017 ); 
71 连接 到 数据 库 
MongoDatabase mongoDatabase = mongoClient. 
getDatabase ("тусо1"); 


1. 数据 库 创 建 
MongoDB 创建 数据 库 的 语法 格式 如 下 。 


例如 ， 要 创建 一 个 info 数据 库 ， 则 命令 如 下 。 


2. 插入 文档 


在 创建 了 info 数据 库 后 ， 可 以 向 该 数据 库 中 的 person 集合 中 插入 一 个 文档 , 文档 内 
жшт. 


实现 该 操作 ， 执 行 如 下 命令 。 


其 中 ，person 为 集合 名 ， 如 果 该 数据 库 没有 该 集合 ,将 自动 创建 该 集合 并 插入 文档 。 
3. 删除 文档 
MongoDB 删除 文档 的 语法 格式 如 下 。 


其 中 , <query> 部 分 是 删除 文档 的 条 件 , justOne 参数 接收 一 个 boolean 值 , 也 就 是 true 


+ ш 


JE 


A 
° 

о 
Гэ) 
= 


(0) EÈ false (1); 如 果 设 置 为 tue， 则 只 删除 一 个 文档 ， 可 不 选 。writeConcern 表示 抛 
出 异常 的 级 别 ， 可 不 选 。 
在 上 述 info 数据 库 中 ， 如 果 删 除 插入 的 {name:"mongodb",age:12} 文 档 ， 则 命令 如 下 。 
db.person.remove ( (name: "попдодб" ) ) 


如 果 需 要 清空 person 集合 中 的 所 有 文档 ， 命 令 如 下 。 


db.person.remove (()) 


4. 修改 文档 
修改 文档 的 语法 格式 如 下 。 


db.collection.update ( 
<query>, 
<update>, 
{ 
upsert: <boolean>, 
multi: <boolean>, 
writeConcern: <document> 


) 


其 中 ，<query> 部 分 是 修改 文档 的 条 件 ; <update> 部 分 表示 update 的 对 象 和 一 些 更 新 
的 操作 符 〈 如 $.$inc…) SE; upsert 可 选 ， 这 个 参数 的 意思 是 ， 如 果 不 存在 update 的 记录 
是 否 插入 objNew, true 为 插入 ， 默 认 是 false， 不 插入 。mnulti， 可 选 ，MongoDB 默认 是 
false， 只 更 新 找到 的 第 一 条 记录 ， 如 果 这 个 参数 为 tue， 就 把 按 条 件 查 出 来 的 多 条 记录 
全 部 更 新 ，writeConcem 可 选 ， 抛 出 异常 的 级 别 。 

在 上 述 info 数据 库 中 ， 如 果 更 新 name 为 MongoDB 的 文档 时 ， 更 新 命令 如 下 。 


db.col.update ( (name: 'mongodb '),(55е:: (папе: ' Мопдорв' }}) 


5. 查询 文档 
在 上 述 info 数据 库 中 ， 如 果 想 查询 name='mongodb' 的 文档 ， 命 令 如 下 。 


db.userdetails.find((name='mongodb')) 


1. 大 数据 的 特点 是 什么 ? 

2. 请 简 述 Hadoop 的 构成 。 

3. 请 简要 说 明 Spark 的 特点 。 

А. 请 说 明 NoSQL 数据 库 的 特点 和 类 型 。 

5. 请 说 明 MongoDB 的 主要 特点 及 典型 应 用 。 
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